文 | 孫永杰
近日,DeepSeek在AI大模型領(lǐng)域引發(fā)熱議,憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,迅速吸引了全球關(guān)注。雖然市場(chǎng)上幾乎充滿了贊嘆聲,但理性的業(yè)內(nèi)人士已經(jīng)開(kāi)始提出質(zhì)疑,認(rèn)為這一現(xiàn)象可能并非一蹴而就,值得等待更多的驗(yàn)證。
DeepSeek究竟為何引發(fā)如此廣泛的關(guān)注?2024年12月,DeepSeek發(fā)布的V3模型突破了多個(gè)開(kāi)源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并與OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等閉源大模型相抗衡。在此基礎(chǔ)上,DeepSeek于2025年1月20日發(fā)布并開(kāi)源了DeepSeek-R1模型,該模型在數(shù)學(xué)、編程和自然語(yǔ)言推理等領(lǐng)域表現(xiàn)出色,甚至與OpenAI的O1模型相匹敵。此舉不僅讓DeepSeek在市場(chǎng)中名聲大噪,還使其在蘋(píng)果App Store的美國(guó)地區(qū)免費(fèi)應(yīng)用程式下載榜單上登頂,超越了ChatGPT等熱門(mén)應(yīng)用。
然而,DeepSeek的成功并非僅僅憑借其卓越的性能,更多的亮點(diǎn)在于其低成本與高效的訓(xùn)練模式。簡(jiǎn)而言之,DeepSeek通過(guò)極低的成本,成功實(shí)現(xiàn)了接近GPT等先進(jìn)模型的性能,這一點(diǎn)引起了業(yè)界的廣泛關(guān)注。
無(wú)法證真,難以證偽的成本惹爭(zhēng)議
提及成本,DeepSeek發(fā)表的原始報(bào)告中有詳細(xì)解釋這筆成本的計(jì)算:“在預(yù)訓(xùn)練階段,每兆個(gè)token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時(shí),也就是說(shuō),在我們擁有2048個(gè)H800 GPU的叢集上需要3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,耗費(fèi)2664K GPU小時(shí)。加上上下文長(zhǎng)度擴(kuò)充所需的119K GPU小時(shí)和后制訓(xùn)練所需的5K GPU小時(shí),DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時(shí)。假設(shè)H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元,我們的總訓(xùn)練成本僅為557.6萬(wàn)美元!
與此同時(shí),該論文稱:“上述成本僅包括DeepSeek-V3的正式訓(xùn)練,并不包括與架構(gòu)、算法或數(shù)據(jù)方面的先前研究和實(shí)驗(yàn)相關(guān)的所有其它成本!
而說(shuō)到不包括與架構(gòu)、算法或數(shù)據(jù)方面的先前研究和實(shí)驗(yàn)相關(guān)的所有其它成本,據(jù)媒體報(bào)道,2019年,推出DeepSeek的幻方量化成立AI公司,其自研的深度學(xué)習(xí)訓(xùn)練平臺(tái)“螢火一號(hào)”總投資近2億元,搭載了1100張GPU;兩年后,“螢火二號(hào)”的投入增加到10億元,搭載了約1萬(wàn)張英偉達(dá)A100顯卡。
我們不清楚上述這些前期的投資與近日爆火的DeepSeek-V3和R-1(主要是R-1)到底有多少相關(guān)性,但從其搭載的為深度學(xué)習(xí)訓(xùn)練平臺(tái)看,肯定是有,且相關(guān)性還不一定低。而這也理應(yīng)分?jǐn)偟匠杀局小?br/>
此外,值得注意的是,上述557.6萬(wàn)美元僅是DeepSeek-V3的訓(xùn)練成本,雖然R-1模型的訓(xùn)練時(shí)間仍未有詳盡披露,但“DeepSeek用遠(yuǎn)低于ChatGPT的成本達(dá)到相同效果”的說(shuō)法已經(jīng)開(kāi)始廣為流傳。
對(duì)此,全球咨詢公司DGA Group的合伙人保羅特里奧洛(Paul Triolo)在Substack上撰文稱:“OpenAI的o1的訓(xùn)練成本肯定遠(yuǎn)超過(guò)GPT-4,同樣,(DeepSeek)R1的訓(xùn)練成本也肯定高于V3。從o3到o4/o5或從R1到R2/R3,訓(xùn)練計(jì)算成本只會(huì)增加。”
無(wú)獨(dú)有偶,近日知名的SemiAnalysis公開(kāi)發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報(bào)告中稱:DeepSeek論文中提到的600萬(wàn)美元成本僅指預(yù)訓(xùn)練運(yùn)行的GPU成本,這只是模型總成本的一小部分,他們?cè)谟布系幕ㄙM(fèi)遠(yuǎn)高于5億美元。例如為了開(kāi)發(fā)新的架構(gòu)創(chuàng)新,在模型開(kāi)發(fā)過(guò)程中,需要投入大量資金來(lái)測(cè)試新想法、新架構(gòu)思路,并進(jìn)行消融實(shí)驗(yàn)。開(kāi)發(fā)和實(shí)現(xiàn)這些想法需要整個(gè)團(tuán)隊(duì)投入大量人力和GPU計(jì)算時(shí)間。例如深度求索的關(guān)鍵創(chuàng)新多頭潛在注意力機(jī)制(Multi-Head Latent Attention),就耗費(fèi)了數(shù)月時(shí)間。
綜上公開(kāi)信息和權(quán)威機(jī)構(gòu)的公開(kāi)報(bào)告,我們認(rèn)為,業(yè)內(nèi)流傳的關(guān)于DeepSeek用遠(yuǎn)低于ChatGPT的成本達(dá)到相同效果的說(shuō)法因漏讀和誤導(dǎo)而頗為值得商榷。
當(dāng)然,由于商業(yè)機(jī)密等多重因素,業(yè)內(nèi),包括我們,事實(shí)上無(wú)法通過(guò)復(fù)現(xiàn)來(lái)證實(shí)557.6萬(wàn)美元訓(xùn)練成本是虛假的,即證偽;而基于同樣的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公開(kāi)透明的向外界或者通過(guò)外界證明557.6萬(wàn)美元就是真實(shí)的訓(xùn)練成本,即證真。所以業(yè)內(nèi)對(duì)于其成本爭(zhēng)議的產(chǎn)生也自在情理之中了。
引微軟和OpenAI知識(shí)產(chǎn)權(quán)疑慮,都是“蒸餾”惹得禍
除了前述的DeepSeek成本之謎,最近,OpenAI和微軟均向媒體證實(shí),已掌握疑似DeepSeek通過(guò)“蒸餾”(distillation)技術(shù),利用OpenAI專有模型來(lái)訓(xùn)練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務(wù)上達(dá)到類(lèi)似的效果。OpenAI雖未進(jìn)一步提供證據(jù)的細(xì)節(jié),但根據(jù)其服務(wù)條款,用戶不得“復(fù)制”任何OpenAI的服務(wù),或“利用輸出結(jié)果開(kāi)發(fā)與OpenAI競(jìng)爭(zhēng)的模型”。
與此同時(shí),微軟和OpenAI也在調(diào)查DeepSeek是否通過(guò)未經(jīng)授權(quán)的方式,不當(dāng)獲取OpenAI技術(shù)輸出的信息。例如,微軟早在2024年秋天就注意到,有人通過(guò)OpenAI應(yīng)用程序接口(API)輸出大量數(shù)據(jù),懷疑這些行為與DeepSeek有關(guān)(注:OpenAI等公司對(duì)API調(diào)用和行為模式有嚴(yán)格監(jiān)控,任何異常行為都會(huì)觸發(fā)防護(hù)機(jī)制)。
除企業(yè)外,美國(guó)總統(tǒng)川普政府的AI專家大衛(wèi)塞克斯(David Sacks)也在福斯新聞訪談中提到“蒸餾”技術(shù),并表示有“大量證據(jù)”顯示DeepSeek依賴OpenAI的模型輸出來(lái)協(xié)助開(kāi)發(fā)其技術(shù),但他并未進(jìn)一步提供證據(jù)。他還提到,未來(lái)幾個(gè)月,美國(guó)領(lǐng)先的人工智能公司將采取措施,防止“蒸餾”技術(shù)的濫用。
從目前公開(kāi)的信息來(lái)看,OpenAI、微軟和AI專家的核心關(guān)切在于DeepSeek是否采用了“蒸餾”技術(shù),并且是否通過(guò)這種方式使用了OpenAI的專有模型。
問(wèn)題的關(guān)鍵在于,DeepSeek是否使用了“蒸餾”技術(shù)來(lái)訓(xùn)練其模型;如果使用了,是否獲得了OpenAI的授權(quán),或者是否違反了OpenAI的服務(wù)條款?
對(duì)于上述兩個(gè)核心問(wèn)題,目前業(yè)內(nèi)人士和媒體的說(shuō)法紛繁復(fù)雜。有的觀點(diǎn)認(rèn)為DeepSeek(主要是R1模型)根本沒(méi)有使用“蒸餾”技術(shù);而有的則稱,DeepSeek的技術(shù)文檔表示,R1模型使用了“蒸餾”技術(shù)生成的高質(zhì)量數(shù)據(jù),以提升訓(xùn)練效率。
在我們看來(lái),由于DeepSeek R-1剛發(fā)布不久,且其突破是在DeepSeek-V3的基礎(chǔ)上進(jìn)行的,而DeepSeek發(fā)布的原始報(bào)告中以V3為例(例如前文提到的成本),這表明R1與V3之間有著較強(qiáng)的關(guān)聯(lián)性。因此,我們不妨從V3的角度出發(fā),考察其是否采用了“蒸餾”技術(shù),從而更客觀地推測(cè)R1是否采用了“蒸餾”技術(shù)。
事實(shí)上,關(guān)于DeepSeek V3,曾在測(cè)試中出現(xiàn)過(guò)異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說(shuō)明。專家認(rèn)為,這很可能是由于訓(xùn)練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容(即“蒸餾”數(shù)據(jù)),導(dǎo)致模型發(fā)生了“身份混淆”。
這一問(wèn)題引發(fā)了部分網(wǎng)友的“套殼”質(zhì)疑。不過(guò),也有網(wǎng)友指出,當(dāng)前數(shù)據(jù)清洗過(guò)程中最基本的原則之一,就是去除類(lèi)似蒸餾GPT4的痕跡,刪去這類(lèi)數(shù)據(jù)是個(gè)非常簡(jiǎn)單的操作。那么,為什么DeepSeek沒(méi)有采取這一操作呢?
對(duì)此,存在兩種可能性:一是DeepSeek根本沒(méi)有使用OpenAI的API生成數(shù)據(jù),但網(wǎng)絡(luò)上有不少人貢獻(xiàn)了OpenAI的訪問(wèn)日志,而DeepSeek可能用了這部分?jǐn)?shù)據(jù);二是DeepSeek在合成數(shù)據(jù)時(shí)選擇了他們認(rèn)為最有效的方式,并且并不打算掩飾這一過(guò)程。
如果這些仍然只是部分網(wǎng)友的爭(zhēng)議觀點(diǎn),那么,最近由中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院、北京大學(xué)、01.AI、南方科技大學(xué)、Leibowitz AI等多個(gè)知名機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models(大語(yǔ)言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過(guò)程可能主要來(lái)自GPT4o,且蒸餾程度較高。
該論文提出了一個(gè)系統(tǒng)化的框架,量化并評(píng)估大模型蒸餾的過(guò)程及其影響,采用了“響應(yīng)相似性評(píng)估(RSE)”和“身份一致性評(píng)估(ICE)”兩個(gè)量化指標(biāo)。RSE實(shí)驗(yàn)結(jié)果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評(píng)分為4.102,遠(yuǎn)高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實(shí)驗(yàn)中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應(yīng)數(shù)量最多的模型之一。
此外,論文還提出過(guò)度蒸餾的問(wèn)題,過(guò)度蒸餾可能導(dǎo)致模型同質(zhì)化,降低獨(dú)特性,甚至影響模型的性能。DeepSeek的R1模型也面臨類(lèi)似問(wèn)題,可能在蒸餾過(guò)程中出現(xiàn)性能下降。
需要補(bǔ)充說(shuō)明的是,對(duì)于DeepSeek爆火之下,馬斯克一直罕見(jiàn)地并未發(fā)表評(píng)論,卻在最近點(diǎn)贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓(xùn)練。盡管模型蒸餾是一項(xiàng)常見(jiàn)的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。
其實(shí)在我們看來(lái),這種“捷徑”方法的影響遠(yuǎn)不止技術(shù)層面。
首先,方法缺乏透明度,使研究界難以準(zhǔn)確評(píng)估并借鑒所謂的進(jìn)展。許多機(jī)構(gòu)可能隱瞞實(shí)際方法,卻夸大自身技術(shù)能力,導(dǎo)致對(duì)領(lǐng)域進(jìn)展的認(rèn)知偏差;其次,這種趨勢(shì)導(dǎo)致創(chuàng)新停滯,研究人員越來(lái)越依賴對(duì)現(xiàn)有強(qiáng)大模型進(jìn)行蒸餾來(lái)訓(xùn)練自己的AI模型,而非開(kāi)發(fā)根本性的新技術(shù)和通用大模型(類(lèi)似于ChatGPT);第三,通過(guò)蒸餾提取出來(lái)的訓(xùn)練數(shù)據(jù)訓(xùn)練出來(lái)的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成難以突破的天花板效應(yīng),阻礙真正的AI產(chǎn)業(yè)進(jìn)步。
值得注意的是,近日,根據(jù)新聞可靠性評(píng)級(jí)服務(wù)機(jī)構(gòu)NewsGuard的審查,DeepSeek的聊天機(jī)器人準(zhǔn)確度僅為17%,在測(cè)試的11個(gè)聊天機(jī)器人中排名第10,遠(yuǎn)低于OpenAI的ChatGPT-4等。原因何在?是否與上述的過(guò)度蒸餾有關(guān)?
即使如此,DeepSeek仍然能夠在成本上顯著壓倒其他大模型,這也是其被廣泛關(guān)注的原因之一。
因此,關(guān)鍵問(wèn)題是,DeepSeek是否獲得了OpenAI的授權(quán)使用其模型進(jìn)行蒸餾訓(xùn)練?如果沒(méi)有,是否違反了OpenAI的服務(wù)條款?鑒于DeepSeek作為國(guó)內(nèi)初創(chuàng)企業(yè),可能并未充分研究OpenAI的服務(wù)條款,其可能面臨法律挑戰(zhàn),尤其是在知識(shí)產(chǎn)權(quán)方面。
這里,我們可以不妨借用華為創(chuàng)始人任正非的做法,他常將一本名為《美國(guó)陷阱》的書(shū)放在辦公桌上,并時(shí)常閱讀。盡管書(shū)中的內(nèi)容和他為何熱衷于閱讀它的原因并不在此展開(kāi),但我們可以借此說(shuō)明,特別是美國(guó)科技公司,往往在其產(chǎn)品中埋設(shè)了大量的“地雷”,一不小心便可能誤入雷區(qū)。
具體到DeepSeek,作為一家主要面向國(guó)內(nèi)市場(chǎng)的初創(chuàng)AI企業(yè),它是否會(huì)事無(wú)巨細(xì)地研究OpenAI的服務(wù)條款,尤其是其中關(guān)于版權(quán)、知識(shí)產(chǎn)權(quán)等敏感內(nèi)容,實(shí)在令人存疑。此外,OpenAI的GPT作為閉源模型,其中可能包含許多知識(shí)產(chǎn)權(quán)、技術(shù)和商業(yè)機(jī)密。DeepSeek是否能夠深入了解這些隱藏的內(nèi)容,亦是一個(gè)值得考慮的問(wèn)題。
再者,考慮到歐盟在數(shù)據(jù)隱私(如GDPR)和AI倫理等方面的嚴(yán)格監(jiān)管,DeepSeek是否已經(jīng)完全理解這些法律法規(guī)?若蒸餾過(guò)程中涉及到未經(jīng)授權(quán)的OpenAI數(shù)據(jù)或受保護(hù)的商業(yè)模型,DeepSeek可能面臨極其嚴(yán)苛的法律挑戰(zhàn)。
最近,意大利隱私監(jiān)管機(jī)構(gòu)Garante向DeepSeek中國(guó)公司發(fā)出正式信息請(qǐng)求,要求其說(shuō)明如何處理意大利用戶的數(shù)據(jù)。Garante對(duì)DeepSeek是否對(duì)意大利用戶的數(shù)據(jù)隱私構(gòu)成風(fēng)險(xiǎn)表示擔(dān)憂,并要求DeepSeek在20天內(nèi)做出答復(fù)。同時(shí),DeepSeek的應(yīng)用在意大利的蘋(píng)果和谷歌應(yīng)用商店被下架。
除此之外,愛(ài)爾蘭數(shù)據(jù)保護(hù)委員會(huì)和德國(guó)等歐洲國(guó)家也可能對(duì)DeepSeek展開(kāi)調(diào)查。這些行動(dòng)表明,DeepSeek的合規(guī)性問(wèn)題在未來(lái)可能成為其發(fā)展道路上的重大挑戰(zhàn)。
綜上,盡管OpenAI、微軟和AI專家未能提供直接證據(jù),但一旦進(jìn)入法律訴訟,DeepSeek的勝算仍然令人堪憂。特別是結(jié)合美國(guó)的國(guó)家安全法案等因素,DeepSeek面臨的風(fēng)險(xiǎn)不可小覷。
從工程創(chuàng)新到基礎(chǔ)創(chuàng)新:中國(guó)AI“軟”實(shí)力幾何?
所謂瑕不掩瑜,當(dāng)我們暫時(shí)拋開(kāi)上述業(yè)內(nèi)(包括廠商、相關(guān)專家等)部分對(duì)于DeepSeek成本、知識(shí)產(chǎn)權(quán)的質(zhì)疑,僅站在AI(包括AI大模型)技術(shù)和產(chǎn)業(yè)的視角去看DeepSeek,其確實(shí)可圈可點(diǎn)。
有關(guān)技術(shù)方面,目前網(wǎng)絡(luò)及專業(yè)媒體報(bào)道和分析的很多,我們就不班門(mén)弄斧了。只是引用下DeepSeek的說(shuō)法,其得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu),實(shí)現(xiàn)了高效的推理和經(jīng)濟(jì)高效的訓(xùn)練。又引入了輔助損失自由負(fù)載平衡策略和多token預(yù)測(cè)訓(xùn)練目標(biāo),提升了模型性能。同時(shí),在14.8萬(wàn)億個(gè)高質(zhì)量token上進(jìn)行預(yù)訓(xùn)練時(shí),通過(guò)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段充分挖掘了其潛力。
看來(lái)DeepSeek-V3通過(guò)數(shù)據(jù)與算法層面的優(yōu)化,大幅提升算力利用效率,實(shí)現(xiàn)了協(xié)同效應(yīng)。簡(jiǎn)而言之,DeepSeek更多是贏在了AI“軟”實(shí)力和工程創(chuàng)新上。而這也得到國(guó)內(nèi)外眾多業(yè)內(nèi)專家、廠商的認(rèn)可。
不過(guò)我們作為非專業(yè)AI媒體,更多還是從技術(shù)發(fā)展邏輯(非技術(shù)本身)、市場(chǎng)事實(shí)闡述下我們的看法。
DeepSeek創(chuàng)始人梁文鋒2023年在接受36氪旗下《暗涌》采訪提及中國(guó)大模型的差距時(shí)曾稱,首先訓(xùn)練效率存在差距,由于結(jié)構(gòu)和訓(xùn)練動(dòng)態(tài)方面的差距,中國(guó)最好的模型可能需要兩倍的計(jì)算能力才能與全球頂尖模型匹敵;數(shù)據(jù)效率也降低了一半,這意味著我們需要兩倍的數(shù)據(jù)和計(jì)算才能獲得相同的結(jié)果。綜合起來(lái),資源是原來(lái)的四倍。我們的目標(biāo)是不斷縮小這些差距。
從2023年至今,一年多的時(shí)間,DeepSeek不僅彌補(bǔ)了其所說(shuō)的我們大模型與國(guó)外綜合起來(lái)的資源差距,甚至資源的投入僅為國(guó)外的不到1/10,且實(shí)現(xiàn)了性能比肩,甚至部分的超越,這一技術(shù)進(jìn)步在短短一年多內(nèi)的發(fā)生,確實(shí)讓業(yè)內(nèi)人士感到意外,這也引發(fā)了對(duì)其背后技術(shù)路徑和資源配置的更多討論。
接下來(lái)我們看看除了對(duì)其極致性能的夸贊之外,選取些我們看到的DeepSeek的表現(xiàn)。
廣發(fā)證券發(fā)布的測(cè)試結(jié)果顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當(dāng),但在邏輯推理和代碼生成領(lǐng)域具有自身特點(diǎn)。
例如,在密文解碼任務(wù)中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務(wù)中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開(kāi)發(fā)流程的指引是最為全面的。在文本生成和數(shù)學(xué)計(jì)算能力方面,DeepSeek-V3并未展現(xiàn)出明顯優(yōu)于其他大模型之處。
另?yè)?jù)國(guó)內(nèi)大模型測(cè)評(píng)機(jī)構(gòu)SuperCLUE 最新發(fā)布的《中文大模型基準(zhǔn)測(cè)評(píng)2024 年度報(bào)告》,總體趨勢(shì)上,國(guó)內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在擴(kuò)大。
2023年5月至今,國(guó)內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過(guò)了從GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多個(gè)版本的迭代升級(jí)。
國(guó)內(nèi)模型也經(jīng)歷了波瀾壯闊的1 8個(gè)月的迭代周期,從2 0 2 3年5月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o1的發(fā)布,差距再次拉大到15.05%。
看完上述,不知業(yè)內(nèi)作何感想?我們認(rèn)為無(wú)論是DeepSeek自身,還是中國(guó)AI大模型的整體,絕非像目前看到某些媒體和業(yè)內(nèi)評(píng)價(jià)的那么極致和領(lǐng)先。尤其是整體,至少?gòu)娜ツ暌荒甑陌l(fā)展周期看,我們AI大模型與國(guó)外的差距反而加大了。
更應(yīng)讓我們不能盲目樂(lè)觀的是,站在整個(gè)AI產(chǎn)業(yè)(包括,但不限于AI大模型)的高度,中國(guó)在AI領(lǐng)域仍然面臨一些核心技術(shù)上的瓶頸,尤其是在基礎(chǔ)算法和數(shù)學(xué)模型的創(chuàng)新方面。盡管開(kāi)源技術(shù),例如現(xiàn)有的深度學(xué)習(xí)模型和開(kāi)源框架(如TensorFlow、PyTorch等)為很多應(yīng)用提供了便利,但它們主要依賴于已有的模型和算法設(shè)計(jì),若要應(yīng)對(duì)日益復(fù)雜的任務(wù),僅僅依賴這些現(xiàn)成的工具將難以滿足要求。更進(jìn)一步,依賴國(guó)外開(kāi)源代碼的情況下,可能會(huì)被技術(shù)壁壘、算法封鎖等所困擾。
基于此,我們AI技術(shù)的進(jìn)一步前行必須依賴于自己原創(chuàng)算法的突破,而不僅僅是現(xiàn)有技術(shù)的跟隨,尤其是當(dāng)前深度學(xué)習(xí)技術(shù)發(fā)展到一定階段,遇到“天花板,需要新的數(shù)學(xué)工具和算法架構(gòu)來(lái)繼續(xù)推動(dòng)技術(shù)進(jìn)步。未來(lái)的AI將不僅僅依賴數(shù)據(jù)和算力,還需要融入更多的邏輯推理、知識(shí)圖譜等元素,這些都需要新的數(shù)學(xué)和算法理論來(lái)支撐。
寫(xiě)在最后:
所謂風(fēng)物長(zhǎng)宜放眼量。不可否認(rèn),DeepSeek作為近年來(lái)崛起的AI大模型,雖然面臨關(guān)于其低成本訓(xùn)練的具體細(xì)節(jié)和是否存在未經(jīng)授權(quán)使用OpenAI技術(shù)的爭(zhēng)議,但其在工程創(chuàng)新、算力優(yōu)化等方面仍值得我們高度肯定,盡管如此,縱觀整個(gè)中國(guó)AI產(chǎn)業(yè),我們依然面臨計(jì)算資源與算力受限、架構(gòu)與算法過(guò)度依賴開(kāi)源,缺乏核心原創(chuàng)AI算法等挑戰(zhàn)待破局。