“春節(jié)期間我們都在忙碌,好不容易盼來一個這么優(yōu)秀的模型,沒有比這更有意義的春節(jié)了! 開源中國董事長馬越告訴第一財經(jīng),開源中國旗下一站式大模型托管平臺Gitee AI在DeepSeek-R1火出圈后迅速與多家國產(chǎn)芯片廠商推進(jìn)了模型適配工作。
而DeepSeek的沖擊波也直接傳遞給了大洋彼岸的英偉達(dá)。英偉達(dá)1月27日美股股價暴跌后,近日開始有所反彈,但股價仍未站上暴跌前的140美元/股的高點(diǎn)。當(dāng)?shù)貢r間2月11日,英偉達(dá)收132.8美元/股,2月起英偉達(dá)股價經(jīng)歷數(shù)日反彈,市值也重新站上3萬億美元,但股價仍未消化完1月27日暴跌的影響。市場之所以對英偉達(dá)的“信仰”產(chǎn)生一定動搖,背后隱藏著AI算力需求減少的擔(dān)憂。
國產(chǎn)芯片同期罕見紛紛主動發(fā)聲:完成DeepSeek模型適配的包括騰、沐曦、壁仞、龍芯、天數(shù)智芯、摩爾線程、海光信息、燧原科技、云天勵飛、昆侖芯等芯片公司!皣a(chǎn)開源模型已經(jīng)出圈,國產(chǎn)算力也要跟著一起出圈! 馬越覺得,國產(chǎn)芯片適配DeepSeek的邏輯是要讓這個模型能跑在國產(chǎn)硬件上。
極致壓榨算力
DeepSeek到底有沒有繞過芯片硬件算力限制?是否部署大規(guī)模算力不再必要?英偉達(dá)股價暴跌后國產(chǎn)芯片積極適配DeepSeek,又是否意味著國產(chǎn)芯片開始反擊英偉達(dá)?
從能跑最熱的開源模型,到拿下更多AI市場的份額,國產(chǎn)芯片可能還無法一蹴而就。沐曦CTO楊建告訴記者,大模型后訓(xùn)練部分預(yù)計今年會有更多非英偉達(dá)卡加入,DeepSeek推動的大模型私有化部署,對國產(chǎn)芯片而言也是機(jī)會。
至于DeepSeek對芯片硬件算力潛力的挖掘是否意味著高性能英偉達(dá)GPU需求減少,業(yè)內(nèi)人士則有不同看法。
鑒于DeepSeek-V3訓(xùn)練預(yù)算低至“2048個GPU、2個月、近600萬美元”,業(yè)界認(rèn)為,能力比肩OpenAI o1的DeepSeek-R1模型訓(xùn)練成本可能也很低。這意味著大模型訓(xùn)練不一定需要使用大量英偉達(dá)GPU。DeepSeek的技術(shù)報告也引起了一些討論,例如大模型團(tuán)隊(duì)對芯片硬件算力的深度挖掘,或提供了一條低成本、可繞開芯片算力限制的路線。DeepSeek使用了諸多方法挖掘了既有芯片的潛在算力。
驚嘆過后,AI業(yè)界和學(xué)界的分析趨于冷靜。DeepSeek對既有芯片潛在算力的挖掘到什么樣的程度、還能不能繼續(xù)挖掘,成為討論的焦點(diǎn)。近日清華、復(fù)旦、上海交通大學(xué)計算機(jī)領(lǐng)域的學(xué)者就DeepSeek的技術(shù)和影響展開了一場線上討論。清華大學(xué)計算機(jī)系教授翟季冬在討論中進(jìn)行了解釋,舉個例子,DeepSeek團(tuán)隊(duì)精細(xì)化編排了計算和通信以降低通信開銷,為此提出一種流水線并行算法,意在通過精細(xì)控制分配給計算和通信的GPU SM(流處理器)數(shù)量,實(shí)現(xiàn)計算和通信完全重疊。這種做法提高了GPU資源的利用率。為了實(shí)現(xiàn)優(yōu)化目標(biāo),該團(tuán)隊(duì)在控制SM使用時就用了PTX。
“幾乎所有深度學(xué)習(xí)或大模型算法工程師都不會接觸到PTX這一層,而PTX實(shí)際上是直接和底層硬件發(fā)生交互,如果你能用PTX,就可以對底層硬件進(jìn)行更好的編程和調(diào)用!鄙虾=煌ù髮W(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人戴國浩表示,DeepSeek在算法、模型、硬件確定的情況下優(yōu)化了軟件,通過PTX語言優(yōu)化讓系統(tǒng)和模型釋放底層硬件性能。
戴國浩認(rèn)為,此前業(yè)內(nèi)做優(yōu)化曾主要聚焦算法精度,后來又關(guān)注到軟硬件協(xié)同優(yōu)化,考慮了硬件約束,“但現(xiàn)在還必須面臨一件事,就是可能出現(xiàn)算力不足或資源受限的情況。如何把資源(因素)放在優(yōu)化函數(shù)上?DeepSeek給了一個非常好的答案!鼻迦A大學(xué)長聘副教授、面壁智能聯(lián)合創(chuàng)始人劉知遠(yuǎn)則總結(jié)為,R1及V3帶來的重要意義在于,讓人們看到通過有限的算力資源和強(qiáng)大算法創(chuàng)新可以突破算力限制,“小米加步槍可能取得廣闊的勝利”。
一些業(yè)界人士認(rèn)為,DeepSeek提出的方法論可以繼續(xù)擴(kuò)大使用并產(chǎn)生廣泛影響!按竽P蜕鷳B(tài)系統(tǒng)從最頂層的產(chǎn)品應(yīng)用到底層的基礎(chǔ)設(shè)施,每一個層級都存在優(yōu)化空間。是否有可能在每一個層級做優(yōu)化,最終形成疊化,把整體優(yōu)化性能做得更高?這是我們在DeepSeek論文中看到的一個方向!贝鲊普f,通過底層優(yōu)化助力上層模型,這種優(yōu)化工作還能被放在更多底層芯片中,在其團(tuán)隊(duì)的統(tǒng)計中,有大約1/3的國產(chǎn)芯片也能通過相應(yīng)的優(yōu)化釋放底層硬件性能,優(yōu)化后性能甚至能達(dá)3倍以上。
不過,也有芯片業(yè)界人士認(rèn)為,DeepSeek團(tuán)隊(duì)在底層算力優(yōu)化方面已接近天花板,且相關(guān)技術(shù)難以遷移。中存算半導(dǎo)體董事長陳巍告訴記者,類似DeepSeek這種“壓榨”GPU算力的路徑還能繼續(xù)走下去,但繼續(xù)提升的可能性不大。
“DeepSeek AI Infra團(tuán)隊(duì)的軟硬件協(xié)同設(shè)計水平可能暫時超越了大部分國際大模型企業(yè)。基本上,DeepSeek團(tuán)隊(duì)對GPU性能利用率的優(yōu)化已接近技術(shù)上限。”陳巍表示,DeepSeek使用的一些訓(xùn)練成本優(yōu)化屬于CUDA定制化技術(shù),其他競品企業(yè)未必有類似的定制能力,例如混合精度存儲/計算屬于DeepSeek內(nèi)部的定制化技術(shù),與量化交易中的FPGA優(yōu)化有原理相似之處,這類定制化技術(shù)一般難以簡單復(fù)制。
爭論之下,對于沒有算力限制的海外公司而言,立即減少算力支出似乎還沒必要。英偉達(dá)股價震蕩期間,海外云廠商并未開始減少開支。美東時間2月6日,亞馬遜宣布將在2025年投入約1000億美元用于其人工智能項(xiàng)目的研發(fā)。市場研究機(jī)構(gòu)TechInsights發(fā)布報告稱,數(shù)據(jù)中心/云計算占據(jù)英達(dá)總收入的85%~90%,而頂級超大規(guī)模云服務(wù)商2025年將在AI上投資3200億美元,盡管有質(zhì)疑聲,但科技巨頭投資不減。
雖然大模型訓(xùn)練算力需求是否減少仍有爭議,但推理算力需求增大目前存在更多共識。TechInsights表示,DeepSeek-R1引發(fā)熱議后,人工智能的前景是從訓(xùn)練轉(zhuǎn)向推理。英偉達(dá)此前的回應(yīng)也提及,DeepSeek等人工智能公司的推理過程需要大量的英偉達(dá)GPU和高性能網(wǎng)絡(luò),DeepSeek的成功表明市場對英偉達(dá)芯片的需求依然強(qiáng)勁。
國產(chǎn)算力如何切入
國產(chǎn)芯片近期聲量頗高。
在各家芯片廠商的描述中,適配DeepSeek模型所需時間短則一兩天乃至幾個小時。天數(shù)智芯相關(guān)人士告訴記者,春節(jié)期間DeepSeek成為行業(yè)焦點(diǎn),公司判斷R1開源可能會帶來更大算力需求,開發(fā)者基于R1進(jìn)行二次開發(fā)和優(yōu)化訓(xùn)練也需要算力支持,公司與合作伙伴爭分奪秒推進(jìn)了DeepSeek模型的適配與上線。
馬越告訴記者,國產(chǎn)開源模型出圈對國產(chǎn)算力起到“倒逼”的作用,之所以適配速度較快,有DeepSeek優(yōu)先級較高的原因。也有芯片廠商內(nèi)部人士告訴記者,適配DeepSeek難度不算大,因?yàn)檫m配的是DeepSeek模型的推理應(yīng)用而非訓(xùn)練。
國產(chǎn)大模型出圈給了國產(chǎn)算力激勵。
天數(shù)智芯相關(guān)人士告訴記者,DeepSeek采用自強(qiáng)化學(xué)習(xí)優(yōu)化算法等技術(shù),為契合這些獨(dú)特算法,芯片廠商會優(yōu)化硬件架構(gòu)、改進(jìn)指令集,提升芯片對復(fù)雜計算的處理效率,并優(yōu)化內(nèi)存管理、數(shù)據(jù)傳輸?shù)纫赃m配模型結(jié)構(gòu)。國產(chǎn)模型取得突破是加快國內(nèi)“模型+系統(tǒng)+芯片”閉環(huán)形成的一個機(jī)會,國產(chǎn)模型性能提升能吸引更多國內(nèi)系統(tǒng)和芯片廠商合作,芯片廠商也會為了支持國產(chǎn)模型而研發(fā)更適配的芯片。相比閉源模型,開源讓不同芯片適配模型的機(jī)會增加。
“DeepSeek做了非常好的一環(huán),已經(jīng)使國內(nèi)模型超越或在某些場景超越海外模型,打響了第一槍,F(xiàn)在國外芯片、模型和系統(tǒng)已經(jīng)形成一套完備的閉環(huán)生態(tài),未來國內(nèi)也會形成這樣的閉環(huán)!贝鲊票硎。
上海人工智能研究院數(shù)字經(jīng)濟(jì)研究中心資深咨詢顧問于清揚(yáng)提到DeepSeek對國產(chǎn)芯片的促進(jìn)!癉eepSeek通過強(qiáng)化學(xué)習(xí)機(jī)制將模型的無效訓(xùn)練降低60%,對并行計算的需求較傳統(tǒng)架構(gòu)降低40%,使國產(chǎn)芯片在特定計算任務(wù)中的能效比可達(dá)英偉達(dá)GPU的75%! 于清揚(yáng)表示,盡管仍面臨算力依賴和泛化能力的挑戰(zhàn),DeepSeek的創(chuàng)新模式已初步證明算法創(chuàng)新可突破算力瓶頸,美國通過A100/H100禁運(yùn)遏制我國發(fā)展的策略加速失效伴隨華為騰910B等國產(chǎn)芯片在性能和能效方面的持續(xù)優(yōu)化,未來或?qū)⒋蠓档蛧鴥?nèi)企業(yè)對進(jìn)口芯片的依賴。
楊建則看到DeepSeek推動國產(chǎn)芯片在私有化部署領(lǐng)域的機(jī)會。他告訴記者,以往大模型微調(diào)、蒸餾的方法比較少,而R1不用SFT(監(jiān)督微調(diào))、LoRA這種微調(diào)的方法,只通過強(qiáng)化學(xué)習(xí)技術(shù)就讓模型性能涌現(xiàn),且這個方法的成本還非常低,這個方法也能用到DeepSeek之外的模型上。
一般而言,蒸餾技術(shù)可以將“教師模型”的能力注入?yún)?shù)量較小的“學(xué)生模型”中,蒸餾技術(shù)越好,“學(xué)生模型”的能力就有可能越強(qiáng),而參數(shù)量較小的模型較適合私有化部署。楊建認(rèn)為,DeepSeek的方法會促進(jìn)大模型在垂直領(lǐng)域落地,DeepSeek促使的大模型應(yīng)用端爆發(fā),將會從私有化部署領(lǐng)域開始!2025年國產(chǎn)GPU的一個機(jī)會在于私有化部署,基本上這個市場會以大模型后訓(xùn)練和推理為主!睏罱ǜ嬖V記者,基于英偉達(dá)應(yīng)用于AI領(lǐng)域的GPU進(jìn)入國內(nèi)市場的方式,英偉達(dá)卡在零售市場上基本消失了,而私有化部署較依賴零售市場。若私有化部署市場爆發(fā),國產(chǎn)卡將會有很大機(jī)會。
2月6日,DeepSeek已暫停API(接口)充值服務(wù),DeepSeek官方解釋為服務(wù)器資源緊張。在API方式之外,作為一個開源模型,DeepSeek-R1也能由個人或企業(yè)自己部署于自有服務(wù)器上。電商平臺上近日涌現(xiàn)出不少做DeepSeek本地部署生意的店面,側(cè)面印證了市場對DeepSeek私有化部署的熱情。記者留意到,有以約15元單價售賣DeepSeek本地部署教程的店面已售出3000份以上商品。
楊建告訴記者,隨著海外芯片算力限制帶來的難題逼近,全球算力可能會形成兩條并行路線,逐漸脫鉤。到2026年、2027年,美國預(yù)訓(xùn)練和后訓(xùn)練的算力基座預(yù)計仍是英偉達(dá),在國內(nèi)則是有一部分由英偉達(dá)承擔(dān)、一部分由國產(chǎn)芯片承擔(dān)。其中,后訓(xùn)練部分今年逐漸會有更多非英偉達(dá)卡加入,這是因?yàn)楹笥?xùn)練對集群要求相對較低,不太需要千卡以上集群。天數(shù)智芯相關(guān)人士也告訴記者,隨著國產(chǎn)模型取得突破,對國產(chǎn)芯片適配需求增加,今年國產(chǎn)芯片有較大發(fā)展機(jī)會。
DeepSeek模型的火熱也暗含著AI應(yīng)用爆發(fā)的機(jī)會,芯片廠商將目光轉(zhuǎn)向AI應(yīng)用所需的推理算力!叭ツ陣鴥(nèi)評測芯片時主要著眼訓(xùn)練,將國產(chǎn)芯片作為英偉達(dá)訓(xùn)練的替代品,2025年開始將有一個變化,即大家會逐漸看國產(chǎn)芯片在推理市場的機(jī)會。”楊建還表示。
差距依然巨大
國產(chǎn)芯片看到了機(jī)會,但反擊英偉達(dá)的過程,仍是循序漸進(jìn)。一些業(yè)內(nèi)人士強(qiáng)調(diào)了英偉達(dá)生態(tài)的護(hù)城河之高以及國產(chǎn)芯片目前的短板。
雖然多家芯片廠商短時間內(nèi)就適配了DeepSeek模型,但馬越告訴記者,國產(chǎn)芯片適配開源模型的情況相比英偉達(dá)仍有差距。“開源社區(qū)HuggingFace有上百萬個開源人工智能模型,我們平臺是1萬多,這些模型都能自由流暢地運(yùn)行在英偉達(dá)GPU上,但是我們合作最多、時間最長的一家國產(chǎn)芯片廠商,現(xiàn)在也只適配了500多個模型!瘪R越表示。
是否容易適配基于英偉達(dá)GPU開發(fā)的DeepSeek等大模型,與芯片是否兼容CUDA有關(guān)。楊建表示,能兼容CUDA的廠商,彼此間兼容程度也有不同。有業(yè)內(nèi)人士告訴記者,有對CUDA兼容程度較低的芯片廠商實(shí)際上投了上百人的團(tuán)隊(duì)并花了一個多月時間才適配了DeepSeek-V3。而完成適配和優(yōu)化的速度,對模型能否及時上線并進(jìn)行商業(yè)轉(zhuǎn)化至關(guān)重要。
“一般情況下模型大概3~4個月就會迭代一次,如果兼容一個生態(tài)、適配一個模型需要很長時間,就意味著賺不到錢!睏罱ū硎,公司曾遇到連續(xù)4周都有新模型出來的情況,每周都要完成相關(guān)優(yōu)化工作,每一個模型差不多要在1~2天時間內(nèi)完成。
DeepSeek推出的R1和R1-Zero兩個660B參數(shù)(B即十億)的同時,也蒸餾了6個參數(shù)較小的模型給開源社區(qū)。就適配情況,陳巍告訴記者,目前國產(chǎn)芯片適配較多的還是蒸餾模型,實(shí)際功能可能會打折扣,對國產(chǎn)芯片廠商而言,較大的機(jī)會在于DeepSeek蒸餾模型后續(xù)的訓(xùn)練和部署。
而在大模型預(yù)訓(xùn)練方面,由于英偉達(dá)生態(tài)較完善和互聯(lián)技術(shù)較先進(jìn),一些業(yè)內(nèi)人士認(rèn)為目前其他芯片還難以取代英偉達(dá)。陳巍表示,若要進(jìn)行參數(shù)量6000億以上超大規(guī)模模型的訓(xùn)練和部署,國產(chǎn)芯片還面臨互聯(lián)和生態(tài)上的挑戰(zhàn)。訓(xùn)練上,目前大模型對于高速互聯(lián)要求較高,國產(chǎn)芯片多數(shù)達(dá)不到英偉達(dá)的互聯(lián)性能,如果單獨(dú)讓DeepSeek團(tuán)隊(duì)去支持國產(chǎn)芯片,該團(tuán)隊(duì)就要針對整個生態(tài)做國產(chǎn)芯片適配,工作量大到“10個DeepSeek也不夠”。
陳巍強(qiáng)調(diào),DeepSeek目前對英偉達(dá)CUDA生態(tài)仍有明顯的路徑依賴。包括做MoE(專家)模型的DeepSeek在內(nèi),市面上能看到的MoE模型絕大部分是基于CUDA生態(tài)訓(xùn)練和部署, DeepSeek的成本優(yōu)化技術(shù)也是基于CUDA生態(tài)的定制化技術(shù);旧洗竽P陀(xùn)練和優(yōu)化還是需要基于英偉達(dá)CUDA生態(tài)。
楊建也表示,全球98%的大模型訓(xùn)練基于英偉達(dá)的算力,訓(xùn)練離不開英偉達(dá)GPU。雖然今年更多非英偉達(dá)卡將有機(jī)會進(jìn)入后訓(xùn)練部分,但短期內(nèi)占比也相對較低。
(寧佳彥對本文亦有貢獻(xiàn))
(本文來自第一財經(jīng))