展會(huì)信息港展會(huì)大全

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-04 18:08:53   瀏覽:241次  

導(dǎo)讀:這可能是迄今為止海外對(duì) DeepSeek 最全面的一份分析報(bào)告,來(lái)自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對(duì)比,人均年薪千萬(wàn)的頂尖人才,還指出目前 DeepSeek 的成本估算是錯(cuò)誤的,推測(cè)其擁有大約 5 萬(wàn)塊Hopper GPU……關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。圖靈獎(jiǎng)得主楊 ......

這可能是迄今為止海外對(duì) DeepSeek 最全面的一份分析報(bào)告,來(lái)自知名半導(dǎo)體研究機(jī)構(gòu) Semianalysis。

從 DeepSeek 讓訓(xùn)練成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能對(duì)比,人均年薪千萬(wàn)的頂尖人才,還指出目前 DeepSeek 的成本估算是錯(cuò)誤的,推測(cè)其擁有大約 5 萬(wàn)塊Hopper GPU……

關(guān)于 DeepSeek目前很多甚囂塵上的傳言,這篇文章依據(jù)現(xiàn)有信息給出了更客觀的論述。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

圖靈獎(jiǎng)得主楊立昆最近再次發(fā)表了關(guān)于 DeepSeek 的觀點(diǎn),他指出硅谷某些圈子的通病,是認(rèn)定別處的創(chuàng)新都是靠作弊得來(lái)的。

而科技要快速進(jìn)步,恰恰需要讓更多人才參與并共享創(chuàng)新成果。在 DeepSeek 的開(kāi)源模型上,我們也看到了這種愿景。

報(bào)告原文:

https://semianalysis.com/2025/01/31/deepseek-debates/

APPSO 整理了這篇分析報(bào)告中的關(guān)鍵要點(diǎn):

推測(cè) DeepSeek 大約有5萬(wàn)塊 Hopper GPU,在 GPU 上的投資總額超過(guò) 5 億美元。

廣為討論的 600 萬(wàn)美元成本僅指預(yù)訓(xùn)練過(guò)程中 GPU 的花費(fèi),這只是模型總成本的一部分。

DeepSeek 團(tuán)隊(duì)目前約 150 人,從北大浙大等中國(guó)高校招聘人才,年薪可達(dá)千萬(wàn)。

多頭潛在注意力(MLA) 是 DeepSeek 大幅降低推理成本的關(guān)鍵創(chuàng)新,將每次查詢所需的 KV 緩存減少了約 93.3%。

在推理性能上 R1 與 o1 不相上下,而 o3 的能力明顯高于 R1 和 o1。

DeepSeek 風(fēng)暴席卷全球

過(guò)去一周,DeepSeek 成為了全世界人們唯一熱議的話題。

目前,DeepSeek 的日活(據(jù)悉超過(guò) 1900萬(wàn))已經(jīng)遠(yuǎn)高于 Claude、Perplexity 甚至 Gemini。

然而,對(duì)于長(zhǎng)期關(guān)注 AI 行業(yè)的人,這個(gè)消息不算新鮮。我們已經(jīng)討論 DeepSeek 數(shù)月,對(duì)這家公司并不陌生,但瘋狂的炒作卻出乎意料。SemiAnalysis 一直認(rèn)為 DeepSeek 極具才華,而美國(guó)更廣泛的公眾并不在意。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

當(dāng)世界終于關(guān)注到這家公司,其中狂熱的輿論并沒(méi)有完全反映它的真實(shí)情況。

我們想強(qiáng)調(diào)的是,輿論已經(jīng)發(fā)生了轉(zhuǎn)變。上個(gè)月,當(dāng) Scaling Laws (擴(kuò)展定律)被打破時(shí),我們就已揭穿了這個(gè)神話;如今,算法改進(jìn)的速度過(guò)快,而這在某種程度上對(duì)英偉達(dá)和 GPU 不利。

現(xiàn)在大家討論的是,DeepSeek 效率如此之高,以至于我們不再需要更多的計(jì)算資源,而由于模型的變革,出現(xiàn)了巨大的產(chǎn)能過(guò)剩。

雖然杰文斯悖論(Jevons Paradox)也被過(guò)度炒作,但它更接近現(xiàn)實(shí),因?yàn)檫@些模型已經(jīng)引發(fā)了需求,對(duì) H100 和 H200 的定價(jià)產(chǎn)生了實(shí)質(zhì)性的影響。

編者注:杰文斯悖論簡(jiǎn)單來(lái)說(shuō)就是,當(dāng)某種資源的使用效率提高后,雖然單次使用時(shí)消耗更少,但因?yàn)槌杀窘档、使用更方便,反而可能讓人們用得更多,?dǎo)致整體消耗量反而上升。

5 萬(wàn)塊 Hopper GPU

幻方量化是一家中國(guó)對(duì)沖基金,也是最早在其交易算法中采用 AI 的先行者。他們?cè)缭缇鸵庾R(shí)到 AI 在金融以外領(lǐng)域的潛力以及擴(kuò)展能力的重要性,因此不斷增加 GPU 的供應(yīng)。

經(jīng)過(guò)使用數(shù)千個(gè) GPU 集群進(jìn)行模型實(shí)驗(yàn)后,幻方量化在 2021 年,在任何出口限制出臺(tái)之前,就投資了 10000 個(gè) A100 GPU。

這筆投資得到了回報(bào)。隨著幻方量化的不斷進(jìn)步,他們意識(shí)到是時(shí)候在 2023 年 5 月剝離出 「DeepSeek」,以更專注地追求進(jìn)一步的 AI 能力。

當(dāng)時(shí)由于外部投資者對(duì) AI 缺乏興趣(主要擔(dān)心商業(yè)模式問(wèn)題),幻方量化自籌資金成立了這家公司。如今,幻方量化與 DeepSeek 經(jīng)常共享資源,包括人力和計(jì)算資源。

如今,DeepSeek 已經(jīng)發(fā)展成為一項(xiàng)嚴(yán)肅且協(xié)同的重要項(xiàng)目,絕非很多媒體所稱的「副業(yè)項(xiàng)目」。

我們相信即使考慮到出口管制因素,他們?cè)?GPU 上的投資總額超過(guò) 5 億美元。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

我們認(rèn)為,他們大約擁有 50000 個(gè) Hopper GPU,但這并不等同于擁有 50000 個(gè) H100 GPU。

英偉達(dá)根據(jù)不同法規(guī)要求推出了不同版本的 H100(例如 H800、H20),目前只有 H20 可供中國(guó)大模型公司使用。需要注意的是,H800 的計(jì)算能力與 H100 相同,但其網(wǎng)絡(luò)帶寬較低。

我們認(rèn)為 DeepSeek 擁有大約 10000 個(gè) H800 和大約 10000 個(gè) H100。此外,他們還訂購(gòu)了更多的 H20,過(guò)去 9 個(gè)月內(nèi),英偉達(dá)已為中國(guó)市場(chǎng)生產(chǎn)了超過(guò) 1000000 個(gè)此類 GPU。

這些 GPU 在 幻方量化和 DeepSeek 之間共享,并在地理上有所分布。它們被用于交易、推理、訓(xùn)練和研究。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

我們的分析顯示,DeepSeek 的服務(wù)器資本支出總額約為 16 億美元,其中與運(yùn)營(yíng)這些集群相關(guān)的成本高達(dá) 9.44 億美元。

同樣,由于資源集中化是一大挑戰(zhàn),所有 AI 實(shí)驗(yàn)室和超大規(guī)模云服務(wù)商都擁有比單次訓(xùn)練運(yùn)行所使用的 GPU 數(shù)量要多得多,用于研究和訓(xùn)練的任務(wù)。

年薪近千萬(wàn),在中國(guó)高校挖頂尖人才

DeepSeek 完全從中國(guó)招聘人才,不拘泥于以往的資歷,而是高度重視能力與好奇心。DeepSeek 定期在北京大學(xué)、浙江等頂尖高校舉辦招聘活動(dòng),許多員工均畢業(yè)于這些院校。

崗位職責(zé)并完全固定,招聘時(shí)會(huì)有一定靈活性,招聘廣告甚至宣稱可以無(wú)限制調(diào)用 10000 多個(gè) GPU 。

這些職位競(jìng)爭(zhēng)極為激烈,據(jù)稱對(duì)有潛力的候選人提供的薪資超過(guò) 130 萬(wàn)美元(約合 934 萬(wàn)人民幣),遠(yuǎn)高于中國(guó)大型科技公司和 AI 實(shí)驗(yàn)室(如 Moonshot)等競(jìng)爭(zhēng)對(duì)手。

目前 DeepSeek 約有 150 名員工,但正在迅速擴(kuò)張。

歷史證明,一家資金充足且專注的小型初創(chuàng)公司往往能夠突破界限。

DeepSeek 不具備像 Google 那樣的官僚主義,由于其自籌資金,能夠迅速推進(jìn)新想法。

然而,與 Google 類似,DeepSeek(在大多數(shù)情況下)自建數(shù)據(jù)中心,而不依賴外部方或供應(yīng)商。這為進(jìn)一步實(shí)驗(yàn)提供了更大空間,使他們能夠在整個(gè)技術(shù)棧上實(shí)現(xiàn)創(chuàng)新。

我們認(rèn)為,他們是當(dāng)今唯一最優(yōu)秀的「開(kāi)源權(quán)重」實(shí)驗(yàn)室,超越了 Meta 的 Llama 項(xiàng)目、Mistral 以及其他競(jìng)爭(zhēng)者。

DeepSeek 的極低成本被誤讀了

DeepSeek 的價(jià)格與效率引發(fā)了硅谷科技圈地震的關(guān)鍵。

然而,關(guān)于 DeepSeek V3 的訓(xùn)練成本為 600 萬(wàn)美元這個(gè)廣為流傳的數(shù)字,其實(shí)是片面的。這相當(dāng)于只關(guān)注產(chǎn)品物料清單中的某一部分,并將其視為全部成本。預(yù)訓(xùn)練成本僅僅是總成本中很小的一部分。

我們認(rèn)為,預(yù)訓(xùn)練所支出的成本,遠(yuǎn)遠(yuǎn)不能代表模型所花費(fèi)的總成本。

我們相信 DeepSeek 在硬件上的支出遠(yuǎn)超過(guò) 5 億美元。他們?yōu)榱碎_(kāi)發(fā)新的架構(gòu)創(chuàng)新,在模型開(kāi)發(fā)過(guò)程中,花費(fèi)了大量資金用于測(cè)試新思路、新架構(gòu)和消融實(shí)驗(yàn)。

多頭潛在注意力(Multi-Head Latent Attention)  DeepSeek 的一項(xiàng)關(guān)鍵創(chuàng)新,耗時(shí)數(shù)月開(kāi)發(fā),花費(fèi)了整個(gè)團(tuán)隊(duì)的大量人力和 GPU 計(jì)算時(shí)間。

論文中提到的 600 萬(wàn)美元成本僅指預(yù)訓(xùn)練過(guò)程中 GPU 的花費(fèi),這只是模型總成本的一部分。研發(fā)費(fèi)用以及硬件本身的總體擁有成本等重要部分并未包含在內(nèi)。

作為參考,Claude 3.5 Sonnet 的訓(xùn)練成本達(dá)數(shù)千萬(wàn)美元,如果那就是 Anthropic 的全部成本,那么他們就沒(méi)必要從 Google 融資數(shù)十億、從亞馬遜融資數(shù)十億美元。因?yàn)檫@是他們進(jìn)行實(shí)驗(yàn)、提出新架構(gòu)、收集和清洗數(shù)據(jù)、支付員工工資的必要成本。

那么,DeepSeek 是如何獲得如此大規(guī)模的集群的呢?出口管制的滯后是關(guān)鍵,我們會(huì)在下文將詳細(xì)討論。

V3 讓性能差距縮小的秘訣

毫無(wú)疑問(wèn),V3 是一款令人印象深刻的模型,但值得強(qiáng)調(diào)的是,它的「令人印象深刻」是相對(duì)于什么而言。

許多人將 V3 與 GPT-4o 進(jìn)行比較,并強(qiáng)調(diào) V3 在性能上超越了 4o,但 GPT-4o 是在 2024 年 5 月發(fā)布的。以當(dāng)下 AI 的發(fā)展速度,算法改進(jìn)方面那個(gè)時(shí)候和現(xiàn)在已是天壤之別。此外,我們并不驚訝在經(jīng)過(guò)一定時(shí)間后,用更少的計(jì)算資源就能實(shí)現(xiàn)相當(dāng)或更強(qiáng)的能力。

推理成本大幅下降正是 AI 改進(jìn)的標(biāo)志。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

舉個(gè)例子,一些可以在筆記本電腦上運(yùn)行的小模型,其性能可與需要超級(jí)計(jì)算機(jī)訓(xùn)練,以及需要大量 GPU 推理的 GPT-3 相媲美。換句話說(shuō),算法改進(jìn)使得用更少的計(jì)算資源即可訓(xùn)練和推理具備相同性能的模型,而這種模式在業(yè)內(nèi)以及出現(xiàn)了多次。

這一次世界終于注意到了,是因?yàn)樗鼇?lái)自中國(guó)的一家實(shí)驗(yàn)室,但小模型性能提升并不是什么新鮮事。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

目前行業(yè)的趨勢(shì)是,AI 實(shí)驗(yàn)室在投入的絕對(duì)資金上不斷增加,以獲取更高的智能水平。

據(jù)估算,算法效率每年進(jìn)步 4 倍,即每過(guò)一年,用于達(dá)到相同性能的計(jì)算資源減少 4 倍。

Anthropic 的 CEO Dario 認(rèn)為,算法進(jìn)步甚至?xí),可以?shí)現(xiàn) 10 倍的提升。

就 GPT-3 質(zhì)量的推理價(jià)格而言,成本已經(jīng)下降了 1200 倍。

在研究 GPT-4 的成本時(shí),我們也看到了類似的下降趨勢(shì),盡管處于曲線的較早階段。時(shí)間上的成本差異降低可以解釋為不再像上圖那樣保持性能不變。

在這種情況下,我們看到算法改進(jìn)和優(yōu)化使得成本降低 10 倍,同時(shí)性能提升 10 倍。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

需要說(shuō)明的是,DeepSeek 的獨(dú)特之處在于他們率先實(shí)現(xiàn)了這種成本和性能水平。

雖然 Mistral 和 Llama 模型也曾在開(kāi)源模型上做過(guò)類似的事情,但 DeepSeek 做到的程度獨(dú)樹(shù)一幟。如果到了年底,成本再下降 5 倍,也請(qǐng)不要感到驚訝。

R1 憑什么迅速追上 OpenAI o1

大家熱議的另一個(gè)話題,是 R1 能夠達(dá)到與 o1 相當(dāng)?shù)男Ч,?o1 僅在 9 月發(fā)布。

僅僅幾個(gè)月時(shí)間,DeepSeek 是如何如此迅速地趕上的呢?

問(wèn)題的關(guān)鍵在于,推理能力形成了一種全新的范式。

推理范式迭代速度更快,且以較少的計(jì)算資源即可獲得顯著收益。正如我們?cè)跀U(kuò)展定律報(bào)告中提到的,以往的范式依賴于預(yù)訓(xùn)練,而這種方式不僅成本越來(lái)越高,且已經(jīng)難以取得穩(wěn)健的進(jìn)步。

新的推理范式,專注于通過(guò)合成數(shù)據(jù)生成和在現(xiàn)有模型上進(jìn)行后訓(xùn)練中的強(qiáng)化學(xué)習(xí)來(lái)提升推理能力,從而以更低的成本實(shí)現(xiàn)更快的進(jìn)步。

較低的入門門檻加上易于優(yōu)化,使得 DeepSeek 能夠比過(guò)去更快地復(fù)制 o1 方法。隨著各方探索如何在這一新范式下進(jìn)一步擴(kuò)展,我們預(yù)計(jì)不同模型在匹配性能的時(shí)間差距將會(huì)拉大。

需要注意的是,R1 論文中沒(méi)有提及所使用的計(jì)算資源。這絕非偶然  為了生成用于后訓(xùn)練的合成數(shù)據(jù),R1 需要大量的計(jì)算資源,更不用說(shuō)強(qiáng)化學(xué)習(xí)了。

R1 是一款非常優(yōu)秀的模型,但它披露的一些基準(zhǔn)測(cè)試也具有誤導(dǎo)性。R1 特意沒(méi)有提及那些它并不領(lǐng)先的基準(zhǔn)測(cè)試,雖然在推理性能上 R1 與 o1 不相上下,但在每項(xiàng)指標(biāo)上它并不都是明顯的贏家,在許多情況下甚至不如 o1。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

這里我們還沒(méi)有提到 o3。o3 的能力明顯高于 R1 和 o1。實(shí)際上,OpenAI 最近分享了 o3 的結(jié)果(還提前發(fā)布了 o3-mini ),其基準(zhǔn)測(cè)試的擴(kuò)展呈垂直趨勢(shì)。

這似乎再次證明了「深度學(xué)習(xí)遭遇瓶頸」,但這個(gè)瓶頸不同以往。

萬(wàn)字揭秘DeepSeek:頂尖AI人才年薪千萬(wàn),訓(xùn)練成本被低估

與 Google 的推理模型不相上下

盡管 R1 的炒作熱潮不斷,但很多人忽略了,一家市值 2.5 萬(wàn)億美元的美國(guó)公司在上個(gè)月以更低的價(jià)格發(fā)布了一款推理模型:Google 的 Gemini Flash 2.0 Thinking。

贊助本站

相關(guān)熱詞: seek hopper gpu 工資 人才 年薪

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港