展會信息港展會大全

國產(chǎn)AI算力黑馬崛起,解密英博云全新產(chǎn)品矩陣
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-13 20:36:34   瀏覽:302次  

導(dǎo)讀:智東西(公眾號:zhidxcom)作者 | 程茜編輯 | 漠影智東西12月13日報(bào)道,今天,國產(chǎn)“算力黑馬”之一英博數(shù)科亮出了英博云全系產(chǎn)品、服務(wù)升級成果,可以概括為一大標(biāo)準(zhǔn)+高效益、多樣化的GPU智算產(chǎn)品與服務(wù)。一大標(biāo)準(zhǔn)指的是企業(yè)在成本效率、資源利用等維度的成本評估框架“單位有效算力成本”,這可以成為企業(yè)評估計(jì)算資源實(shí)際效率的參考,也為智算行業(yè)的透明化、高效化和可持續(xù) ......

智東西(公眾號:zhidxcom)

作者 | 程茜

編輯 | 漠影

智東西12月13日報(bào)道,今天,國產(chǎn)“算力黑馬”之一英博數(shù)科亮出了英博云全系產(chǎn)品、服務(wù)升級成果,可以概括為一大標(biāo)準(zhǔn)+高效益、多樣化的GPU智算產(chǎn)品與服務(wù)。

一大標(biāo)準(zhǔn)指的是企業(yè)在成本效率、資源利用等維度的成本評估框架“單位有效算力成本”,這可以成為企業(yè)評估計(jì)算資源實(shí)際效率的參考,也為智算行業(yè)的透明化、高效化和可持續(xù)化提供了可行的路徑。

高效益、多樣化的GPU智算產(chǎn)品與服務(wù),包括面向萬卡集群大規(guī)模訓(xùn)練需求的智算中心建設(shè)運(yùn)維、能滿足彈性算力需求的GPU容器服務(wù)、評估關(guān)鍵指標(biāo)的先進(jìn)算力實(shí)驗(yàn)室、聯(lián)合產(chǎn)業(yè)上下游的產(chǎn)業(yè)孵化器四大維度。

從評估標(biāo)準(zhǔn)、算力服務(wù)到科學(xué)評估服務(wù),英博數(shù)科作為鴻博股份的全資子公司,承載著集團(tuán)科技專項(xiàng)發(fā)展的重任,并已經(jīng)在智算行業(yè)的加速變革下形成了全面的業(yè)務(wù)支撐。

大模型產(chǎn)業(yè)發(fā)展至今,從最初ChatGPT爆火,到如今AI應(yīng)用加速落地,圖片、視頻、3D等多模態(tài)模型涌現(xiàn),再到2024年臨近尾聲,OpenAI、谷歌、亞馬遜、Meta紛紛亮出年末大招,又在大模型掀起新熱潮,都將這一產(chǎn)業(yè)的競爭推向新的高度。

在這之中,算力、算法、數(shù)據(jù)三駕馬車并駕齊驅(qū)之際,算力層面的企業(yè)需求正在發(fā)生變化:從單純考量算力規(guī)模轉(zhuǎn)移到如何用好算力、充分釋放算力的價(jià)值,這對算力提供商提出了更為嚴(yán)峻的考驗(yàn)。

在此背景下,智東西等媒體在發(fā)布會前期,與鴻博股份CFO兼英博數(shù)科CEO浦威、英博數(shù)科CTO李少鵬、英博數(shù)科副總裁宋琛、英博數(shù)科副總裁秦偉俊進(jìn)行了深入交流,從英博云的新發(fā)布出發(fā),探尋智能算產(chǎn)業(yè)的高效發(fā)展之路。

一、從基礎(chǔ)模型到AI應(yīng)用,智算產(chǎn)業(yè)三大趨勢凸顯

算力作為數(shù)據(jù)處理和算法執(zhí)行的關(guān)鍵驅(qū)動(dòng)力,今年以來,業(yè)界的關(guān)注焦點(diǎn)也在發(fā)生變化。

從算力提供方以及企業(yè)需求方來看,目前有三大明顯的趨勢:

首先,通用大模型訓(xùn)練算力集群從千卡移向萬卡。

此前被視為大模型“金科玉律”的Scaling Law發(fā)展正在放緩成為業(yè)界熱議的焦點(diǎn),綜合來看,盡管預(yù)訓(xùn)練有放緩趨勢,但正如李少鵬所言,相同算法、相同架構(gòu)條件下,模型規(guī)模與性能表現(xiàn)往往是成正比的,因此“從第一性原理來看,Scaling law不會失效”。在一定階段內(nèi),算力需求的持續(xù)增長仍毋庸置疑。

再看通用大模型的參數(shù)量發(fā)展,已經(jīng)從千億級向萬億級邁進(jìn),隨著硬件技術(shù)的進(jìn)階,使得構(gòu)建萬卡集群具備可行性。海外GPT-4大模型需要用25000張A100 GPU訓(xùn)100天、Meta推出2個(gè)24576張H100集群、馬斯克曾自曝新版Grok 3訓(xùn)練用了10萬張H100 GPU……

可以說,未來做通用模型,萬卡級別已成必備門檻。

其次,垂直大模型訓(xùn)練算力使用從定量移向彈性。

不同于通用模型,垂直模型業(yè)務(wù)往往具有較強(qiáng)時(shí)效性和不確定性,以金融行業(yè)的風(fēng)險(xiǎn)預(yù)測為例,市場波動(dòng)頻繁才是其高頻使用的場景,市場相對穩(wěn)定其算力需求相對較低。

因此,其算力分配的規(guī)模和頻率可能會隨時(shí)間、業(yè)務(wù)場景而變化,定量的算力配置難以靈活應(yīng)對這種變化。

而彈性算力模式的供給,既能讓企業(yè)根據(jù)實(shí)際訓(xùn)練需求動(dòng)態(tài)調(diào)整算力資源,在訓(xùn)練任務(wù)低谷期減少算力租用,避免不必要的成本支出;在高峰期則能快速擴(kuò)充算力,確保訓(xùn)練任務(wù)按時(shí)完成,從而在高效利用算力資源的同時(shí)控制成本。

國產(chǎn)AI算力黑馬崛起,解密英博云全新產(chǎn)品矩陣

最后,算力需求正從訓(xùn)練轉(zhuǎn)向推理。

大模型加速落地應(yīng)用已經(jīng)成為共識,其應(yīng)用場景已經(jīng)從科研維度向醫(yī)療、金融、交通等行業(yè)擴(kuò)展,而這些實(shí)際場景中,大模型推理階段的算力需求更為突出。

在業(yè)務(wù)端,AI助手、聊天機(jī)器人等需要快速響應(yīng)客戶請求,并實(shí)時(shí)對大量傳感器數(shù)據(jù)進(jìn)行處理、計(jì)算,以支撐其做出準(zhǔn)確、科學(xué)的決策反饋。

但鮮明的產(chǎn)業(yè)趨勢背后,對算力提供方提出的挑戰(zhàn)也不可小覷。

構(gòu)建萬卡智算集群,需要解決硬件、軟件等諸多挑戰(zhàn)。如大量加速卡之間的高速互聯(lián)、穩(wěn)定可靠的硬件系統(tǒng)、具備容錯(cuò)能力的軟件架構(gòu)、有效的故障檢測機(jī)制、優(yōu)化和適配的訓(xùn)練算法、提高能源利用效率……

同時(shí),彈性算力為算力提供商的技術(shù)積淀提出了更高要求,其需要整合云計(jì)算、虛擬化、容器、異構(gòu)計(jì)算等多種技術(shù),同時(shí)要兼顧數(shù)據(jù)管理、傳輸,在如此復(fù)雜的系統(tǒng)架構(gòu)下完成運(yùn)維和管理。

最后推理階段的算力要求最直觀的就是響應(yīng)要快,不同于訓(xùn)練階段,推理階段用戶對延遲的容忍度更低,需要在短時(shí)間內(nèi)得到響應(yīng),因此需要算力集群能通過提升網(wǎng)絡(luò)帶寬和存儲系統(tǒng)的性能,以兼顧數(shù)據(jù)的快速傳輸、數(shù)據(jù)安全等。

因此,算力提供方如何提供更好用的算力、企業(yè)如何選擇合適的算力,成為橫亙在二者之間的鴻溝。

二、算力高效利用迫在眉睫,率先定義“單位有效算力成本”

目前,盡管萬卡集群的建設(shè)正高歌猛進(jìn),各家都亮出了彈性算力提供方案,但企業(yè)應(yīng)該如何選擇這件事,尚未得到解決。

從企業(yè)端的需求來看,當(dāng)大模型走向千行百業(yè),企業(yè)選購算力的重點(diǎn)也隨之轉(zhuǎn)移,從更注重算力規(guī)模到算力的有效利用率。

那么,業(yè)界是否有直觀的數(shù)據(jù)指標(biāo),能將這一評估標(biāo)準(zhǔn)直接呈現(xiàn)出來,以供企業(yè)能快速準(zhǔn)確的選到高性能、性價(jià)比的方案?答案顯然是還沒有。

浦威做了一個(gè)形象的比喻,就像在高速路上開車載荷貨物,只有車的馬力跑足、貨物裝滿,才能把實(shí)際支出的“算力”充分利用起來。 在此背景下,英博數(shù)科提出了一個(gè)定義“單位有效算力成本”的新標(biāo)準(zhǔn):

國產(chǎn)AI算力黑馬崛起,解密英博云全新產(chǎn)品矩陣

具體來看,這一公式的分子是設(shè)備成本、機(jī)電成本、運(yùn)維成本組成的算力投入成本,分母是裝機(jī)算力、卡可用率、卡利用率及模型算力利用率組成的有效計(jì)算能力,通過這兩個(gè)參數(shù)的系統(tǒng)比較,得出單位有效算力的成本。

李少鵬進(jìn)一步解釋說,這一標(biāo)準(zhǔn)制定背后,他們綜合考慮了成本、實(shí)際裝機(jī)算力、訓(xùn)練過程折損、模型框架選擇、模型訓(xùn)練的時(shí)間長度和效率整個(gè)鏈條。

其中,算力投入成本中采購服務(wù)器的設(shè)備成本是固定的,此外智算中心的日常使用需要企業(yè)支付機(jī)房租賃以及電力的費(fèi)用,同時(shí)需要人力運(yùn)營、維護(hù),避免其出現(xiàn)故障,因此,最終成本源頭就組成了這三塊。

分母指的就是企業(yè)得到的有效算力,由于裝機(jī)算力即設(shè)備廠商標(biāo)定的額定算力會因?yàn)楦鞣N因素被折損。

在運(yùn)維技術(shù)或者條件不完善的情況下,卡會存在很高的故障概率,也就是說假設(shè)裝機(jī)算力達(dá)到1000P,但實(shí)際可用的算力可能只有900P。

卡利用率指的就是GPU卡真正為企業(yè)所用的效率,正如前文所述,垂直業(yè)務(wù)場景中,對GPU算力的需求并不是穩(wěn)定且持續(xù)的,因此在非業(yè)務(wù)場景下GPU卡會空閑下來。

最后是模型算力利用率,這是針對GPU做大模型訓(xùn)練和推理的重要指標(biāo),其是實(shí)際有效利用算力資源與所提供總算力資源之間的比例關(guān)系。

這四大關(guān)鍵要素相乘作為整體的分母,企業(yè)的算力投入成本相加作為分子,就將“單位有效算力成本”這件事評估清楚了。

回過頭來看,當(dāng)下企業(yè)關(guān)注應(yīng)用算力效率問題這件事,其實(shí)并不是一個(gè)新鮮話題,相關(guān)的討論也異常火熱,目前從相關(guān)標(biāo)準(zhǔn)的討論焦點(diǎn)來看,機(jī)房算力、運(yùn)營、網(wǎng)絡(luò)、存儲、環(huán)境等問題的分析非常多,卻缺少一個(gè)邏輯鏈將這些因素串聯(lián)起來。

英博數(shù)科為什么做到了?浦威點(diǎn)出了問題的關(guān)鍵因?yàn)橛⒉⿺?shù)科將這一條鏈路端到端經(jīng)歷過。從智算中心建設(shè)、機(jī)房選型到集群建設(shè)、交付,到模型訓(xùn)練等環(huán)節(jié),都已經(jīng)呈現(xiàn)在其業(yè)務(wù)體系中。

不論從成本還是效率來看,算力的高效利用都迫在眉睫,“如何用好算力”在當(dāng)下更為關(guān)鍵。站到算力產(chǎn)業(yè)新的發(fā)展節(jié)點(diǎn),英博數(shù)科要在“提高算力有效利用率”上做文章。

而基于上面這一標(biāo)準(zhǔn),當(dāng)算力需求端和供給端形成共識,這是算力產(chǎn)業(yè)良性發(fā)展的前提。李少鵬補(bǔ)充說,企業(yè)可以根據(jù)這一標(biāo)準(zhǔn)快速估算自己的成本以及對應(yīng)的需求,從而找到適合的方案。

因此,英博數(shù)科高效益、多樣化的智算產(chǎn)品、服務(wù)方案就應(yīng)運(yùn)而生了。

三、高效益、多樣化智算產(chǎn)品+服務(wù),釋放更多有效算力

“單位有效算力成本”新標(biāo)準(zhǔn),已經(jīng)成為英博數(shù)科產(chǎn)品與服務(wù)體系的基準(zhǔn)。

今天,英博數(shù)科推出英博云高效益、多樣化的GPU智算產(chǎn)品與服務(wù),成為大模型智能水平進(jìn)階以及落地應(yīng)用的重要基礎(chǔ)設(shè)施。

在此之上,其產(chǎn)品包括面向萬卡集群大規(guī)模訓(xùn)練需求的智算中心建設(shè)運(yùn)維、能滿足彈性算力需求的GPU容器服務(wù)、評估關(guān)鍵指標(biāo)的先進(jìn)算力實(shí)驗(yàn)室、聯(lián)合產(chǎn)業(yè)上下游的產(chǎn)業(yè)孵化器四大業(yè)務(wù)。

從直接的算力提供方案來看,宋琛提到英博數(shù)科關(guān)注的兩點(diǎn),一方面是對大模型訓(xùn)練本身有集群規(guī)模建設(shè)的頭部大模型客戶,其會基于本身的集群建設(shè)和運(yùn)維經(jīng)驗(yàn),提供量身定制的集群選型、建設(shè)、運(yùn)維到整體解決方案;另一方面是,對中小型客戶的彈性算力需求,其推出了容器云服務(wù)。

其中,智算中心建設(shè)運(yùn)維就是面向萬卡集群的大規(guī)模訓(xùn)練需求,英博云會為企業(yè)提供自研的高性能并行存儲解決方案、硬件測評和檢測體系、系統(tǒng)運(yùn)維和硬件維修體系、細(xì)粒度的集群監(jiān)控和故障自動(dòng)化恢復(fù)體系、算力調(diào)度平臺。

國產(chǎn)AI算力黑馬崛起,解密英博云全新產(chǎn)品矩陣

做萬卡甚至十萬卡規(guī)模的集群,需要將所有卡組在一張計(jì)算網(wǎng)中,涉及整體的設(shè)備、交換機(jī)、光模塊、光纖選型,對于非AI基建領(lǐng)域的專業(yè)玩家挑戰(zhàn)很大,而這正是英博數(shù)科技術(shù)積累發(fā)揮優(yōu)勢的機(jī)遇。

GPU容器服務(wù)可以滿足彈性算力需求,包括以VCluster形式提供GPU和CPU資源混合的彈性K8S集群服務(wù)、支持SSH和Kubectl管理操作、秒級別的容器啟停和計(jì)費(fèi)粒度、企業(yè)級并行存儲服務(wù)、提供內(nèi)網(wǎng)預(yù)定義場景鏡像倉庫、常用模型庫、常用數(shù)據(jù)集等數(shù)據(jù)源服務(wù)等。

國產(chǎn)AI算力黑馬崛起,解密英博云全新產(chǎn)品矩陣

容器云的難點(diǎn)在于,需要精準(zhǔn)分配和管理算力資源,以適應(yīng)企業(yè)進(jìn)行大模型訓(xùn)練和推理不同階段的算力需求,且需兼顧數(shù)據(jù)的高效存儲、管理以及高效的網(wǎng)絡(luò)通信、高效的并行和分布式訓(xùn)練等。而英博云的產(chǎn)品將面向客戶提供按需使用的算力,甚至可以精確到按小時(shí)、按分鐘計(jì)費(fèi),按CPU任務(wù)或GPU任務(wù)等,因“單位有效算力成本”的標(biāo)準(zhǔn)之下,企業(yè)的算力成本也會更為可控。

產(chǎn)品之外,服務(wù)體系也是鏈接企業(yè)需求與算力供應(yīng)形成科學(xué)互動(dòng)的關(guān)鍵,也就是英博數(shù)科的算力實(shí)驗(yàn)室扮演的角色。

宋琛談道,算力實(shí)驗(yàn)室聚焦的領(lǐng)域有兩個(gè),測評市面上的主流算力卡,以及測評和適配國產(chǎn)算力卡并進(jìn)行異構(gòu)算力平臺開發(fā)工作。

先進(jìn)算力實(shí)驗(yàn)室圍繞硬件評測、軟件評測以及行業(yè)服務(wù)展開工作,為企業(yè)算力基礎(chǔ)設(shè)施的升級與優(yōu)化提供前瞻先進(jìn)、切實(shí)可行的建議。比如在硬件評測方面,實(shí)驗(yàn)室會對GPU、交換機(jī)、光模塊、并行存儲等進(jìn)行嚴(yán)格測試,確保設(shè)備性能符合高標(biāo)準(zhǔn);在軟件評測方面,圍繞基座模型、訓(xùn)練框架、微調(diào)框架、推理框架等,為智能算力的優(yōu)化提供全方位支持。通過提供行業(yè)標(biāo)準(zhǔn)制定和定制化服務(wù),先進(jìn)算力實(shí)驗(yàn)室會幫助企業(yè)在智能算力領(lǐng)域不斷突破創(chuàng)新。

國產(chǎn)AI算力黑馬崛起,解密英博云全新產(chǎn)品矩陣

投資層面,英博云正在聯(lián)合AI產(chǎn)業(yè)上下游,探索算力組合投資新模式,宋琛提到了產(chǎn)業(yè)孵化器的形式,英博數(shù)科會對AI應(yīng)用領(lǐng)域的新興創(chuàng)企,提供資金、算力、人才培養(yǎng)等幫助。

綜上所述,英博云此次的智算產(chǎn)品與服務(wù)升級,集萬卡集群構(gòu)建、算力提供方式、評估體系于一體,將智能算力服務(wù)的供應(yīng)體系串聯(lián)了起來。

想要做到這些非一日之功,這都得益于這家國產(chǎn)“算力黑馬”深厚的技術(shù)積淀與商業(yè)化經(jīng)驗(yàn)。

英博數(shù)科的核心成員出身清華、北大等名校及頭部互聯(lián)網(wǎng)、AI與云計(jì)算企業(yè)。

就在上周,英博數(shù)科智算中心建設(shè)運(yùn)維解決方案已在京能項(xiàng)目落地,據(jù)悉,英博數(shù)科在智算中心建設(shè)運(yùn)維方面擁有的獨(dú)特優(yōu)勢,成為推動(dòng)京能項(xiàng)目持續(xù)進(jìn)展的核心力量。

這些已經(jīng)成為其面向智算產(chǎn)業(yè)變革的行業(yè)浪潮之下,打造行業(yè)護(hù)城河的重要支撐。

如今,算力在AI產(chǎn)業(yè)中的地位舉足輕重,現(xiàn)下的產(chǎn)業(yè)命題正是如何緊跟大模型產(chǎn)業(yè)的發(fā)展趨勢,使得算力在企業(yè)之間高效流轉(zhuǎn)起來,英博數(shù)科的戰(zhàn)略升級,使得其成為當(dāng)下這一產(chǎn)業(yè)鏈中算力賦能者。

結(jié)語:算力先鋒,AI全鏈進(jìn)化的強(qiáng)勁引擎

隨著AI技術(shù)不斷向縱深拓展,從基礎(chǔ)模型的構(gòu)建到復(fù)雜算法的訓(xùn)練與優(yōu)化,每一個(gè)環(huán)節(jié)都離不開強(qiáng)大算力的支撐。

英博數(shù)科在算力基礎(chǔ)設(shè)施建設(shè)方面投入巨大且已經(jīng)成果斐然,此次產(chǎn)品與服務(wù)的全面升級,也是其面向算力產(chǎn)業(yè)變革的趨勢下交出的最新答卷。

在AI應(yīng)用加速落地的當(dāng)下,算力基礎(chǔ)設(shè)施提供商正與大模型玩家、企業(yè)應(yīng)用方形成合力,為AI大規(guī)模應(yīng)用落地不斷注入新動(dòng)力。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港