《科創(chuàng)板日?qǐng)?bào)》12月30日訊 日前,深度求索DeepSeek-V3橫空出世,在AI行業(yè)內(nèi)引發(fā)巨震,關(guān)鍵原因之一就是預(yù)訓(xùn)練成本之低這個(gè)參數(shù)量高達(dá)671B的大模型,在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個(gè)月,且只花費(fèi)557.6萬美元。與此同時(shí),DeepSeek-V3相比其他前沿大模型,性能卻足以比肩乃至更優(yōu)。
在這背后,DeepSeek-V3采用了用于高效推理的多頭潛在注意力(MLA)和用于經(jīng)濟(jì)訓(xùn)練的DeepSeekMoE。研發(fā)團(tuán)隊(duì)證明,多Token預(yù)測(cè)目標(biāo)(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推測(cè)解碼。后訓(xùn)練方面,DeepSeek V3引入了一種創(chuàng)新方法,將推理能力從長(zhǎng)思維鏈模型(DeepSeek R1)中,蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時(shí),保持了DeepSeek V3的輸出風(fēng)格和長(zhǎng)度控制。
有觀點(diǎn)認(rèn)為,DeepSeek-V3極低的訓(xùn)練成本或許預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降,甚至有觀點(diǎn)將27日A股算力概念的下跌與之聯(lián)系在一起。但也有觀點(diǎn)認(rèn)為,DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn),合成數(shù)據(jù)的生成和清洗也需要消耗算力。此外,在訓(xùn)練上做降本增效不代表算力需求會(huì)下降,只代表大廠可以用性價(jià)比更高的方式去做模型極限能力的探索。
“最重要的是,我們正式進(jìn)入了分布式推理時(shí)代! 談及DeepSeek-V3時(shí),Lepton AI創(chuàng)始人兼CEO賈揚(yáng)清針對(duì)推理方面指出,“一臺(tái)單GPU機(jī)器(80×8=640G)的顯存已經(jīng)無法容納所有參數(shù)。雖然更新大顯存機(jī)器確實(shí)可以裝下模型,但不論如何,都需要分布式推理來保證性能和未來擴(kuò)展!
中信證券研報(bào)也指出,近日,DeepSeek-V3的正式發(fā)版引起AI業(yè)內(nèi)廣泛高度關(guān)注,其在保證了模型能力的前提下,訓(xùn)練效率和推理速度大幅提升。DeepSeek新一代模型的發(fā)布意味著AI大模型的應(yīng)用將逐步走向普惠,助力AI應(yīng)用廣泛落地;同時(shí)訓(xùn)練效率大幅提升,亦將助力推理算力需求高增。
AI行業(yè)“下一件大事”?
“我們已經(jīng)達(dá)到了數(shù)據(jù)峰值……AI預(yù)訓(xùn)練時(shí)代無疑將終結(jié)! OpenAI聯(lián)合創(chuàng)始人兼前首席科學(xué)家Ilya Sutskever前不久曾如此斷言。
多位AI投資人、創(chuàng)始人和CEO們?cè)诮邮懿稍L時(shí)都表示,AI的Scaling Law定律的收益正在逐步衰減。
包括a16z合伙人Anjney Midha、微軟CEO Satya Nadella在內(nèi),AI行業(yè)CEO、研究人員和投資人們,已經(jīng)發(fā)出了新的判斷:我們正處于一個(gè)新的Scaling Law時(shí)代“測(cè)試時(shí)間計(jì)算時(shí)代”,即“推理時(shí)代”。這項(xiàng)能力讓AI模型在回答問題之前,能有更多時(shí)間和算力來“思考”,“這特別有希望成為下一件大事” 。
AI應(yīng)用崛起 呼喚推理算力
為什么推理如此關(guān)鍵?
除了“舊版Scaling Law”效應(yīng)衰減之外,還有一個(gè)原因就在于AI應(yīng)用英偉達(dá)競(jìng)爭(zhēng)對(duì)手、AI芯片制造商Cerebras曾如此解釋, “快速推理是解鎖下一代AI應(yīng)用的關(guān)鍵。從語音到視頻,有了快速推理之后,以前無法實(shí)現(xiàn)的響應(yīng)式智能應(yīng)用程序?qū)⒊蔀榭赡!?
以近期風(fēng)頭大盛的豆包為例,不久前豆包大家族全面更新,豆包大模型應(yīng)用場(chǎng)景不斷拓展,民生證券指出,這使得對(duì)推理算力的需求不斷攀升,主要集中在硬件設(shè)備算力需求、數(shù)據(jù)中心規(guī)模擴(kuò)張需求、通信網(wǎng)絡(luò)需求三方面。
具體而言,豆包大模型將帶來多少推理端的算力需求增量?分析師根據(jù)目前豆包的月活、日活以及日均token調(diào)用量為基礎(chǔ),做出保守、中性、樂觀3種假設(shè),預(yù)計(jì)豆包大模型或?qū)?59、1139、1898億元的AI服務(wù)器資本開支需求。
隨著AI應(yīng)用顯著帶動(dòng)算力建設(shè),分析師指出,字節(jié)算力資本開支持續(xù)攀升。
另外,上周還有報(bào)道指出,小米正在著手搭建自己的GPU萬卡集群,將對(duì)AI大模型大力投入。小米大模型團(tuán)隊(duì)在成立時(shí)已有6500張GPU資源。
當(dāng)然,字節(jié)跳動(dòng)與小米不是個(gè)例,海外科技巨頭也正在大手筆加大資本開支。據(jù)摩根士丹利預(yù)估,海外四大科技巨頭在2025年的資本開支可能高達(dá)3000億美元,其中亞馬遜964億美元、微軟899億美元、Alphabet 626億美元、Meta 523億美元。
雖說目前暫時(shí)無法明確其中有多少資金將用于AI算力建設(shè),但從這些巨頭此前的種種表態(tài)與近年的資本方向可以想到,AI占比不會(huì)太低。
Bloomberg Intelligence最近的一篇報(bào)告顯示,企業(yè)客戶可能會(huì)在2025年進(jìn)行更大規(guī)模的AI投資,而AI支出增長(zhǎng)將更側(cè)重于推理側(cè),以實(shí)現(xiàn)投資變現(xiàn)或提升生產(chǎn)力。
隨著端側(cè)AI放量,豆包、ChatGPT等AI應(yīng)用快速發(fā)展,多家券商研報(bào)指出,算力需求會(huì)加速?gòu)念A(yù)訓(xùn)練向推理側(cè)傾斜,推理有望接力訓(xùn)練,成為下一階段算力需求的主要驅(qū)動(dòng)力。
a16z合伙人Anjney Midha表示,如果推理計(jì)算成為擴(kuò)展AI模型性能的下一個(gè)領(lǐng)域,那么對(duì)專門用于高速推理的AI芯片的需求可能會(huì)大幅增加。如果找到答案與訓(xùn)練模型一樣需要大量計(jì)算,那么AI領(lǐng)域“賣鏟人”將再次獲勝。
(科創(chuàng)板日?qǐng)?bào) 鄭遠(yuǎn)方)