「核心提示」
一家中國大模型公司,如何另辟蹊徑,改變牌局?
作者 | 周可
編輯 | 邢昀
這個春節(jié)假期,無論你是不是科技新聞的長期讀者,大概率逃不過一款名為 DeepSeek的AI產(chǎn)品相關(guān)資訊持續(xù)刷屏。
一切始于1月20日,中國科技公司深度求索推出推理模型DeepSeek-R1,僅用 OpenAI十分之一的成本就達到其最新模型GPT-o1同級別的表現(xiàn)。
此前,深度求索宣布其推出的DeepSeek-V3僅花費558萬美元,不到國外公司十分之一的GPU芯片和訓(xùn)練時長,就實現(xiàn)了與GPT-4o和Claude Sonnet 3.5等花費數(shù)億美元訓(xùn)練的頂尖模型相當(dāng)?shù)男阅堋_@一消息迅速激起全球科技界持續(xù)關(guān)注。
R1發(fā)布后的十天內(nèi),DeepSeek先后登上中國、美國等70多個國家蘋果應(yīng)用商店下載榜榜首。這是全球范圍內(nèi),首次有產(chǎn)品超越OpenAI的ChatGPT。幾年來,AI競賽的焦慮第一次傳導(dǎo)到美國科技公司。
DeepSeek火爆之下,對算力需求是否產(chǎn)生負(fù)面影響的討論,也引發(fā)了華爾街恐慌。1 月27日,美國主要科技股市值開盤縮水超1萬億美元,英偉達股價帶頭跳水 16.86%,市值蒸發(fā)5890億美元,相當(dāng)于跌沒了兩個阿里巴巴。甲骨文下跌 13.78%,超微電腦下跌 12.49%,芯片制造商博通下跌 17.4%,臺積電跌 13%。
科技股股價暴跌的同時,美國科技公司開始研究、模仿中國對手。據(jù)報道,Meta已成立四個小組專門研究DeepSeek。同時,更多質(zhì)疑和圍剿也接踵而至。
過去幾年的AI競賽中,中國互聯(lián)網(wǎng)和科技公司始終是美國公司的跟隨者,中國公司只能寄希望于用更多的資源投入追趕對手,但風(fēng)向始終由OpenAI、Meta為代表的美國公司掌握。2022年起,美國政府宣布升級芯片出口管制,此后多次更新出口限制清單,限制高算力芯片出口,中國AI企業(yè)普遍陷入算力焦慮。
DeepSeek最新模型的出現(xiàn),打破了大模型發(fā)展淪為巨頭與資本游戲的行業(yè)共識,為業(yè)內(nèi)追趕美國大模型的中國公司們提供一條新的思路:繞過美國堆算力的技術(shù)路徑,優(yōu)化算法、探索效率優(yōu)先,走一條“低成本高產(chǎn)出”之路,也可以實現(xiàn)彎道超車。
1、量化基金背景的大模型,如何彎道超車?
在本次新模型發(fā)布引發(fā)全球關(guān)注后,一些國外媒體和投資者一度將DeepSeek稱為一家不知名的中國公司。這種描述并不準(zhǔn)確。
DeepSeek背后的深度求索是一家創(chuàng)立于2023年的年輕公司,但其母公司幻方量化,是管理了超過1000億元資產(chǎn)的國內(nèi)頭部量化交易公司,在多年前就開始涉足AI 研究。
DeepSeek創(chuàng)始人梁文鋒最早開啟AI研究的初衷是,用GPU計算交易倉位,訓(xùn)練量化交易模型。此后,出于探索AI能力邊界的好奇,他們囤積了過萬塊先進GPU芯片開始訓(xùn)練AGI模型,儲備量接近國內(nèi)一線互聯(lián)網(wǎng)公司,高于大模型創(chuàng)業(yè)六小龍。這為DeepSeek日后的模型進展打下了基礎(chǔ)。
DeepSeek也不是突如其來地“驚艷”所有人,在近期推出的V3和R1模型之前,它就曾以帶頭打響大模型價格戰(zhàn)而在國內(nèi)AI行業(yè)引發(fā)關(guān)注。2024年5月,DeepSeek發(fā)布DeepSeek-V2 ,價格僅為GPT-4-Turbo的近百分之一。
此后的30天,字節(jié)、百度、阿里等公司的大模型相繼降價,DeepSeek更是一年內(nèi)3次降價,每次降幅超過85%。
降價,來自訓(xùn)練和推理成本的持續(xù)降低。相比OpenAI和它的中國效仿者們用數(shù)億美元訓(xùn)練大模型,DeepSeek選擇了一條更“摳門”,更“極致”的路線。
它的研究人員提出的一種新的MLA(一種新的多頭潛在注意力機制)架構(gòu),與 DeepSeek MoESparse (混合專家結(jié)構(gòu))結(jié)合,把顯存占用降到了其他大模型最常用的MHA架構(gòu)的5%-13%。
行業(yè)通常用數(shù)萬億token(文本單位)訓(xùn)練模型,但DeepSeek通過“數(shù)據(jù)蒸餾”技術(shù),即用一個高精度的通用大模型當(dāng)老師,而不是用題海戰(zhàn)術(shù)來更高效訓(xùn)練學(xué)生“模型”,把數(shù)據(jù)計算最大程度降低,僅用1/5的數(shù)據(jù)量達到同等效果,促成了成本的下降。
一個通俗的舉例可幫助我們理解這種變化,傳統(tǒng)大模型每次處理問題都需激活全部參數(shù),而普通用戶提出的問題可能并不需要如此多的資源投入,這如同讓一家醫(yī)院的全部科室去會診一個普通感冒;而DeepSeek-R1會先判斷問題類型,再精準(zhǔn)調(diào)用對應(yīng)模塊數(shù)學(xué)題交給邏輯推理單元,寫詩則由文學(xué)模塊處理。這種設(shè)計讓模型響應(yīng)速度提升3倍,能耗也更低。
更快速度和更低能耗,建立在“低成本、高性能”的初始規(guī)劃上。DeepSeek通過算法優(yōu)化顯著降低訓(xùn)練成本。R1 的預(yù)訓(xùn)練費用只有557.6萬美元,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上運行55天完成。此前,OpenAI等企業(yè)訓(xùn)練模型,都需要數(shù)千甚至上萬塊高算力的Nvidia A100、H100等頂級顯卡,花費數(shù)億美元的訓(xùn)練成本。
并非 OpenAI 或者中國大公司的大模型開發(fā)者們沒有想到過此類模塊化方案的可能性,而是他們權(quán)衡利弊,選擇了更適合自身發(fā)展情況的方案。
OpenAI擁有資金和算力上的絕對優(yōu)勢,優(yōu)先追求“通用智能”,他們花費數(shù)十億美元,通過海量參數(shù)投喂訓(xùn)練模型,希望模型可以達到全能通才的效果。效仿它的中國公司們沿用這一思路,可以保證自家大模型沒有明顯的能力短板,快速達到可商用水平。
DeepSeek選擇從垂直場景切入,從 all in 特定領(lǐng)域開始,追求在部分領(lǐng)域(如數(shù)學(xué)、代碼)的表現(xiàn)更優(yōu),再逐步分階段完善其他領(lǐng)域的能力。
DeepSeek R1 與 OpenAI O1正式版在數(shù)學(xué)、代碼、自然語言推理等任務(wù)下的測試成績相當(dāng)。
這種另辟蹊徑意味著更高難度,更高風(fēng)險。若路由錯誤(例如將詩歌創(chuàng)作誤判為數(shù)學(xué)題),輸出質(zhì)量將會暴跌;模塊間的知識隔離(如用數(shù)學(xué)公式寫情書),可能導(dǎo)致跨領(lǐng)域任務(wù)失敗。如果未能開發(fā)出足夠優(yōu)異的模塊化模型,前期的投入可能浪費。大多數(shù)公司受限于路徑依賴或資源約束,難以接受All in這一高風(fēng)險路線。
這并不容易。早期DeepSeek的MoE模型誤判率普遍在15%以上,團隊通過引入強化學(xué)習(xí)優(yōu)化路由決策,長期訓(xùn)練后模型在測試中將誤判率控制在個位數(shù)的低位。
多位行業(yè)人士將DeepSeek的脫穎而出理解為“模塊化特種兵”,在與OpenAI等“通用巨獸”的比賽中,在部分領(lǐng)域展現(xiàn)出同等能力甚至略微領(lǐng)先。盡管DeepSeek的整體技術(shù)與OpenAI等美國企業(yè)存在差距,但其已經(jīng)足以被視為一個實力逐漸接近的競爭對手。
更關(guān)鍵的是, DeepSeek 跳過了美國開發(fā)者們認(rèn)為必不可少的步驟,這意味著在資金、算力芯片劣勢的情況下,中國乃至世界各地的AI創(chuàng)業(yè)公司也有可能彎道超車,不必活在大公司的陰影之下,垂直領(lǐng)域的專注也能幫助他們在特定場景中形成優(yōu)勢,避免與巨頭正面競爭,找到屬于自己的立足之地。
2、開源模型,DeepSeek的選擇與壁壘
DeepSeek引起轟動,除了模型本身的優(yōu)異表現(xiàn),還來自其堅持的免費開源主張,公開模型的源代碼、權(quán)重和架構(gòu)。這意味著,無論是個人還是開發(fā)者,或是企業(yè)用戶都可以免費使用其最新模型,并在此基礎(chǔ)上開發(fā)更多應(yīng)用。
這一決策得到了許多行業(yè)專家和投資者的贊許。
英偉達高級研究科學(xué)家Jim Fan評論稱,“我們生活在這樣一個時代,一家非美國公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究。”
硅谷風(fēng)投A16Z創(chuàng)始人Marc Andreessen也發(fā)表評論稱,DeepSeek-R1 是他見過的最令人驚嘆且令人印象深刻的一個突破,作為開源的模型,它的面世給世界帶來了一份禮物。
OpenAI最初是為了對抗谷歌在AI領(lǐng)域的壟斷地位,旨在通過開源的方式促進AI技術(shù)的發(fā)展,避免谷歌在AI領(lǐng)域的過度控制,因此命名為 “OpenAI” 以體現(xiàn)其開源的愿景。但在GPT-3發(fā)布,接受微軟投資后,OpenAI 出于訓(xùn)練成本、收益和維持其競爭力的考慮走向閉源。
目前表現(xiàn)強勁的其他大模型,如Meta的Llama號稱選擇了開源路線,但許可證需要申請訪問權(quán)限,限制部分商業(yè)用途,且只公開了部分架構(gòu)細節(jié),不公開具體的訓(xùn)練數(shù)據(jù)構(gòu)成,不提供完整的訓(xùn)練腳本。這樣的開源對于AI產(chǎn)業(yè)的進步意義十分有限。
大多數(shù)中國大公司開發(fā)的大模型,如百度的文心一言、華為的盤古大模型等產(chǎn)品都選擇了閉源路線,它們往往是基于商業(yè)化和競爭考量,平臺型公司有足夠多的資源,掌握了大量的用戶數(shù)據(jù),可以依靠自身的內(nèi)部循環(huán)完成模型的訓(xùn)練和迭代。閉源可以讓他們在模型專長的領(lǐng)域保持優(yōu)勢,避免被競爭對手趕超。
DeepSeek選擇開源,既是出于對傳統(tǒng)大廠的技術(shù)壟斷的挑戰(zhàn),也是基于自身發(fā)展情況的考量。創(chuàng)業(yè)公司可能在資源和算力上處于劣勢,但通過開源策略,可以快速建立生態(tài),獲得更多的用戶和開發(fā)者支持。
DeepSeek創(chuàng)始人梁文鋒此前談及對于開源的構(gòu)想是,成為更多公司的模型底座。哪怕一個小 APP都可以低成本去用上大模型,而不是技術(shù)只掌握在一部分人和公司手中,形成壟斷。
在他看來,DeepSeek未來可以只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,其他公司在 DeepSeek的基礎(chǔ)上構(gòu)建To B、To C的業(yè)務(wù)。如果能形成完整的產(chǎn)業(yè)上下游,就沒必要自己做應(yīng)用。
DeepSeek所選擇的模塊化模型設(shè)計,如同精密的鐘表單個齒輪的工藝或許可復(fù)制,但整體協(xié)同需要長期試錯與生態(tài)積累。競爭對手并不能依靠簡單照搬就能復(fù)制其原始模型,越多的用戶和開發(fā)者使用,則意味著模型得到更多訓(xùn)練。
當(dāng)下,DeepSeek背靠千億量化基金,在免去資金的后顧之憂后,選擇了一條頗顯理想主義的路徑,即只做模型研究,不考慮商業(yè)變現(xiàn),通過開源基礎(chǔ)模型吸引開發(fā)者,未來再逐步通過企業(yè)版工具鏈(如模塊訓(xùn)練平臺)推進商業(yè)化。
今天的AI競爭格局之下,對于一家創(chuàng)業(yè)公司,開源不僅是技術(shù)策略,更是參與制定行業(yè)規(guī)則的關(guān)鍵落子。在模型能力逐漸透明的未來,真正的競爭優(yōu)勢將來自構(gòu)建數(shù)據(jù)反饋閉環(huán)的能力,以及將技術(shù)影響力轉(zhuǎn)化為商業(yè)生態(tài)的能力。
這本質(zhì)上是一場關(guān)于"標(biāo)準(zhǔn)制定權(quán)"的爭奪誰的開源協(xié)議能成為行業(yè)事實標(biāo)準(zhǔn),誰就能在下一代AI基礎(chǔ)設(shè)施中占據(jù)核心位置。中國科技公司與美國科技公司之間的差距,不是時間維度,而是創(chuàng)新和模仿的差別。
這一次,DeepSeek 代表的中國科技公司給出的方案不再是模仿跟隨,而是創(chuàng)新。
參考資料:
暗涌 Waves:揭秘DeepSeek:一個更極致的中國技術(shù)理想主義故事
科技新聞:DeepSeek除夕發(fā)布新模型,多模態(tài)大一統(tǒng)的革命來了?
雷鋒網(wǎng):MoE 高效訓(xùn)練的 A/B 面:與魔鬼做交易,用「顯存」換「性能」
NYT:How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley Giants