智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
DeepSeek的爆火,讓一條“中國特色”的算力路線浮出水面。
智東西2月11日報道,今日,AI基礎(chǔ)設(shè)施創(chuàng)企無問芯穹上線了滿血版DeepSeek-R1的國產(chǎn)適配版,且正逐一打通DeepSeek模型在7家國產(chǎn)AI芯片上的部署與推理服務(wù)。
至此,無問芯穹Infini-AI異構(gòu)云大模型服務(wù)平臺成為首個同時支持DeepSeek多芯片適配和推理的平臺。開發(fā)者不僅能一鍵獲取R1、V3模型,還將能選用來自壁仞科技、海光信息、華為騰、摩爾線程、沐曦、燧原科技、天數(shù)智芯這7家國產(chǎn)AI芯片品牌的算力。
無問芯穹演示了在Infini-AI平臺上順暢調(diào)用DeepSeek-R1模型及沐曦C550 AI加速卡的流程和效果。
這將DeepSeek擂響的“國產(chǎn)算力替代”戰(zhàn)鼓聲,推至新的高潮。比起僅僅比拼模型精度優(yōu)勢的競速賽,時代的氣運已經(jīng)將AI競賽的焦點,推向一場更大組織之間完整產(chǎn)業(yè)鏈實力的比拼。
技驚四座的DeepSeek大模型,用一系列創(chuàng)新打破了AI算力的游戲規(guī)則,降低了訓(xùn)練頂尖模型所需的硬件門檻,令本土替代雄心高漲。但如何利用好DeepSeek模型帶來的算力優(yōu)化啟示,高效盤活國產(chǎn)算力資源?這個難題依然待解。
DeepSeek引爆的國產(chǎn)算力狂歡能持續(xù)多久?狂歡過后,國產(chǎn)AI芯片的路又該如何往前走?其論文提出對未來硬件設(shè)計的發(fā)展建議對國產(chǎn)芯片有何參考價值?國產(chǎn)大模型的發(fā)展會對算力緊缺和算力閑置并存的現(xiàn)象產(chǎn)生何種影響?未來大模型訓(xùn)練的比拼是否會演變?yōu)橄到y(tǒng)能力主導(dǎo)?
近日,智東西獨家對話無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪,深入探討在算力受限的條件下,國產(chǎn)模型、AI芯片及智算產(chǎn)業(yè)如何從DeepSeek的成功汲取經(jīng)驗,通過精耕細(xì)作來降低算力成本,發(fā)揮出國內(nèi)智算資源的實用價值。
▲無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪
一、用有限算力訓(xùn)練更大模型:解讀DeepSeek的技術(shù)秘籍,如何做到對算力的極致利用?
DeepSeek大語言模型共發(fā)布了3個大版本,參數(shù)規(guī)模從67B擴大到236B再到如今671B,所用的訓(xùn)練算力并未與模型尺寸等比例的成倍增長。
在美國芯封鎖的背景下,DeepSeek通過算法、架構(gòu)、程的軟硬件協(xié)同優(yōu)化創(chuàng)新,以有限算、超低成本實現(xiàn)了性能比肩頂尖國外模型的國產(chǎn)模型,印證了軟硬協(xié)同這一技術(shù)路線對推動Scaling Law、突破算瓶頸的有效性和巨潛力。
具體表現(xiàn)為兩大類方法:
一是深到底層硬件的硬核優(yōu)化需要對底層的硬件有充分理解,并能夠在硬件層得到夠開放的軟件態(tài)。典型技術(shù)包括底層PTX編程、精細(xì)流線編排、極致的內(nèi)存優(yōu)化。
底層PTX編程:DeepSeek團隊通過CUDA更底層的硬件接編程實現(xiàn)更精細(xì)的通信任務(wù)管理,將跨節(jié)點通信的效率提了60%,比起“繞開CUDA”更像是“穿透CUDA”。精細(xì)流水線編排:采混合專家(MoE)結(jié)構(gòu),通過縮減模型激活參數(shù)量和限制通信范圍,犧牲通信換取模型規(guī)模增,再通過細(xì)致的計算通信編排,實現(xiàn)了通信時間和計算時間將近100%重疊,成功掩蓋這些開銷。極致的內(nèi)存優(yōu)化:通過參數(shù)共享、計算換存儲、協(xié)同使內(nèi)存顯存等技術(shù),將顯存需求量降低了1/4以上,有效改善顯存開銷對限制模型規(guī)模的影響。
二是打通從算法到硬件的協(xié)同優(yōu)化需要對于從算法到硬件各層次都有充分理解,并具有極致的程實現(xiàn)能。典型技術(shù)包括:模型結(jié)構(gòu)配合系統(tǒng)需求、使更低精度訓(xùn)練、MoE負(fù)載均衡。
模型結(jié)構(gòu)配合系統(tǒng)需求:修改標(biāo)準(zhǔn)Transformer(存儲量計算中間結(jié)果會嚴(yán)重制約模型能處理的上下度),使隱空間注意計算機制MLA,計算換存儲,在有限顯存中完成注意計算。在乎不損失算法精度的情況下,將顯存占量降低1-2個數(shù)量級。使更低精度訓(xùn)練:通過算法上的精細(xì)分組量化、系統(tǒng)上CUDA核與張量核的并計算,結(jié)合量數(shù)據(jù)實驗,率先實現(xiàn)了利用英偉達(dá)H800上FP8低特計算單元訓(xùn)練出質(zhì)量模型,充分榨硬件潛。MoE負(fù)載均衡:在MoE常的負(fù)載均衡損失函數(shù)外,額外加了限制極端情況的損失限制,并提出Auxiliary-Loss-Free技術(shù)減少負(fù)載均衡限制導(dǎo)致的模型精度損失,不僅將負(fù)載不均衡程度從超過50%降低到5%以內(nèi),也保證了MoE訓(xùn)練精度。
依托于深厚的系統(tǒng)能力,DeepSeek-R1是第個成功使強化學(xué)習(xí)實現(xiàn)推理能增強、達(dá)到世界最優(yōu)性能,并完全開源的類OpenAI o1/o3案。DeepSeek-R1-Zero更是探索出一條全新的無需人類思考數(shù)據(jù),直接自我迭代的技術(shù)路線,對大模型技術(shù)發(fā)展起到了深刻影響。
二、DeepSeek的軟硬件優(yōu)化策略,對國產(chǎn)算力產(chǎn)業(yè)有哪些啟示?
軟硬件聯(lián)合優(yōu)化是連接硬件和算法的橋梁,區(qū)別于各種算法層面優(yōu)化方法,和硬件本身迭代的方法,而是隨著硬件變化,讓軟件也不斷優(yōu)化,或根據(jù)軟件的迭代來定義未來的底層電路實現(xiàn),以更好地持AI算法的運。
夏立雪認(rèn)為,DeepSeek通過軟硬件協(xié)同降低算成本,給國內(nèi)的啟在于這套法論可以打破現(xiàn)在的閉環(huán)態(tài)瓶頸。
在美國,模型、系統(tǒng)、芯片三個關(guān)鍵因素已經(jīng)形成閉環(huán)生態(tài)。而國內(nèi)多數(shù)大模型是通過國外芯(如英偉達(dá))訓(xùn)練得到的,與國內(nèi)的系統(tǒng)、芯難以形成閉環(huán)。
未來,中國需要依托國產(chǎn)模型、國產(chǎn)芯、國產(chǎn)系統(tǒng),形成主可控的全國產(chǎn)AI態(tài)閉環(huán)。實現(xiàn)這個標(biāo)需要分三步:
第步,向國外芯開展極致的軟硬件協(xié)同優(yōu)化,以有限算實現(xiàn)國產(chǎn)模型能追趕國外模型。
DeepSeek已經(jīng)成功完成了第步的探索,依托極致的軟硬件協(xié)同優(yōu)化,2048塊H800 GPU完成了V3模型的預(yù)訓(xùn)練,整體訓(xùn)練成本僅為558萬美元。而海外訓(xùn)練同等能模型所需的成本通常達(dá)數(shù)千萬美元。
第步,依托國產(chǎn)和國外芯搭建“異構(gòu)”AI系統(tǒng),解決算缺以實現(xiàn)國產(chǎn)模型能超越國外模型。
據(jù)估算,OpenAI正在研發(fā)的GPT-5模型的參數(shù)量預(yù)計是GPT-4(參數(shù)量1800B)的5到10倍,少需要5萬塊H100 GPU進(jìn)訓(xùn)練。我國現(xiàn)有符合條件的算力儲備和供給,距離實現(xiàn)自主可控的下一代模型能力超越,仍有較大算力缺口,需要搭建套開放態(tài)的異構(gòu)AI系統(tǒng),推動國產(chǎn)芯商開放底層軟件態(tài),實現(xiàn)國產(chǎn)算的優(yōu)勢資源集聚。
第三步,構(gòu)建國產(chǎn)芯“同構(gòu)”AI系統(tǒng),軟硬協(xié)同垂直打通實現(xiàn)國產(chǎn)模型Scaling Law的持續(xù)發(fā)展。
國外閉環(huán)AI態(tài)是個同構(gòu)的AI系統(tǒng),核競爭在于CUDA-X的垂直整合能。國內(nèi)可通過調(diào)動跨越軟硬件和上下游的態(tài),加投“模型-芯-系統(tǒng)”協(xié)同優(yōu)化和垂直打通。
例如根據(jù)新代模型架構(gòu)來定義未來芯的底層電路實現(xiàn),根據(jù)國產(chǎn)AI系統(tǒng)的互聯(lián)通信式來設(shè)計效的MoE模型結(jié)構(gòu),充分整合上層模型、中間系統(tǒng)、底層芯的產(chǎn)業(yè)鏈資源,集中優(yōu)勢資源,助實現(xiàn)國產(chǎn)模型Scaling Law持續(xù)發(fā)展。
在夏立雪看來,未來大模型訓(xùn)練的比拼,要同時考慮算法精度、系統(tǒng)效率甚是國家戰(zhàn)略。這需要沿著軟硬件協(xié)同的路徑,考慮中美差異,兼顧模型、系統(tǒng)與芯,最終實現(xiàn)模型訓(xùn)練和落地成本的指數(shù)級降低,去牽引更范圍的產(chǎn)業(yè)升級。
三、國產(chǎn)AI芯片大練兵,用“系統(tǒng)自信”調(diào)動“算力自信”
對于國內(nèi)智算產(chǎn)業(yè)來說,DeepSeek是激勵,更是絕佳的商業(yè)化試煉場。
DeepSeek刺激應(yīng)用需求暴漲,激發(fā)了大量推理算力需求。幾乎主流云廠商均已宣布提供R1模型服務(wù),但全網(wǎng)還是很難找到服務(wù)不繁忙的“滿血版”。
在推理需求愈發(fā)旺盛的背景下,國產(chǎn)算力還有很大被利用的空間。完善國內(nèi)算基建迫在眉睫。
以前,國產(chǎn)AI芯片各行其是,各自豪言支持大模型部署,奈何觀望者眾多,實際使用者寥寥。現(xiàn)在DeepSeek相當(dāng)于將AI芯片公司拉到同一個考場,給出統(tǒng)一考題:你的芯片能不能支楞起來?
于是在短短10天內(nèi),20家國產(chǎn)AI芯片企業(yè)摩拳擦掌,各顯其能,爭相適配或上線DeepSeek模型,以期抓住這千載難逢的增長機遇。
這反映了中國當(dāng)前特有的AI基礎(chǔ)設(shè)施格局:有的是芯片和算力資源,只是沒被利用起來。
如何將大量不同架構(gòu)的國產(chǎn)芯片變得能用、好用,并在使用過程中形成硬件與算法之間的正向循環(huán)?無問芯穹的策略是做異構(gòu)云,即統(tǒng)籌模型和算力需求,把分散在不同地方的異構(gòu)算力整合起來,實現(xiàn)不同模型和不同硬件之間的統(tǒng)部署和聯(lián)合優(yōu)化,提供給需要算和模型的客。
這種將異構(gòu)算力資源統(tǒng)一轉(zhuǎn)化成標(biāo)準(zhǔn)的算力服務(wù)、規(guī);瘡(fù)制的做法,有助于擴國內(nèi)模型產(chǎn)業(yè)可算的范圍,提升算利效率。
無問芯穹由清華大學(xué)電子工程系教授、系主任汪玉發(fā)起,他帶領(lǐng)的清華大學(xué)納米集成電路與系統(tǒng)實驗室高能效計算組(NICS-EFC)早在2018 年總結(jié)出軟硬件聯(lián)合優(yōu)化技術(shù)路線。無問芯穹聯(lián)合創(chuàng)始人、CEO夏立雪,聯(lián)合創(chuàng)始人、首席科學(xué)家戴國浩,均畢業(yè)于NICS-EFC;聯(lián)合創(chuàng)始人、CTO顏深根現(xiàn)任清華大學(xué)電子工程系副研究員。
這些背景使得無問芯穹吸納了AI基礎(chǔ)設(shè)施領(lǐng)域的頭部研發(fā)人才,足夠了解在模型各種場景下的異構(gòu)計算卡性能,并與多家硬件公司有充分信任關(guān)系。其推理加速技術(shù)Flash Decoding++通過異步法實現(xiàn)注意計算的真正并,在10+種芯上實現(xiàn)業(yè)第推理加速效果。
夏立雪談道,做國產(chǎn)芯適配的主要挑戰(zhàn)來自硬件態(tài)系統(tǒng)封閉且互不兼容,不同芯有著不同的架構(gòu)和相應(yīng)具鏈。
比如A卡的開發(fā)者,法輕易遷移B卡上展開作,也很難同時A卡和B卡做模型訓(xùn)練或推理。如果個算集群中存在多種芯,算使會臨很多技術(shù)挑戰(zhàn),如不同硬件平臺適配不同的軟件棧和具鏈,需要為每種芯定制和優(yōu)化代碼,令開發(fā)和維護(hù)的復(fù)雜性增。
去年7,無問芯穹就在業(yè)內(nèi)次實現(xiàn)千卡規(guī)模的4+2種芯(天數(shù)智芯、華為騰、沐曦、摩爾線程與AMD、英偉達(dá))異構(gòu)混訓(xùn),集群算力利率最達(dá)到97.6%,其運營算力已經(jīng)覆蓋全國超13座城市。
據(jù)夏立雪分享,在不穩(wěn)定的生態(tài)環(huán)境中,需要一個從算法、硬件到模型都深入理解的團隊,無問芯穹便具備這樣的全棧垂直優(yōu)化能力。
無問芯穹也在持續(xù)跟進(jìn)業(yè)界領(lǐng)先的模型架構(gòu),未來如果有更專的、針對模型結(jié)構(gòu)的計算芯出現(xiàn),則可以更好地利這些專計算芯,軟硬協(xié)同優(yōu)化,減少模型計算時間和硬件資源需求,降低模型的開發(fā)應(yīng)成本。
結(jié)語:產(chǎn)業(yè)鏈主可控是長遠(yuǎn)之策,盤活國產(chǎn)智算資源一盤棋
今年春節(jié),DeepSeek和《哪吒之魔童鬧!穬善a(chǎn)黑馬,扭轉(zhuǎn)了中國企業(yè)技不如人的成見,也例證了只要實力強,自有不分國界的人鼓掌。
西方的經(jīng)驗畢竟是過往,未必全對。在劈開算力封鎖的路上,DeepSeek踏出了成功的一步,接下來的“國產(chǎn)模型+國產(chǎn)算+國產(chǎn)云服務(wù)+國產(chǎn)應(yīng)”全國產(chǎn)化AI之路,還要靠產(chǎn)業(yè)鏈上下游的生態(tài)伙伴合力闖出來。
近期,MIT科技評論的一篇《除DeepSeek之外值得關(guān)注的4家中國AI初創(chuàng)公司》報道引起廣泛關(guān)注。無問芯穹是其中唯一一家專注于AI基建和算力供給、讓現(xiàn)有算力資源發(fā)揮出價值的公司。
DeepSeek證明了利用有限算力加上軟件和工程創(chuàng)新,足以做出強大的模型,也讓國際意識到中國還存在若干路徑獨特的團隊,正在探尋“用Scaling Law比拼模型精度的巨頭競賽”之外可能出奇制勝的路徑。這些路徑能夠跨越軟硬件,攢動上下游,從而產(chǎn)生意外的戰(zhàn)略奇襲。
最終,只有中國AI開發(fā)應(yīng)用成本降下來、中國算力資源用起來,才能擺脫算力限制和算力閑置的掣肘,推動實現(xiàn)千行百業(yè)的大模型應(yīng)用繁榮。