當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人物報(bào)道 > 劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:48:50 瀏覽：159次

導(dǎo)讀：AI如果想要真正賦能全人類，讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能，那么高效性顯然是一個(gè)非常重要的命題。我們認(rèn)為智能革命顯然也要走過(guò)一條類似于信息革命的階段，不斷去提高能力密度，降低計(jì)算成本，讓大模型得以更加普惠。“DeepSeek R1的開(kāi)源，讓全球的人能夠意識(shí)到深度思考的能力。這相當(dāng)于讓整個(gè)人工智能領(lǐng)域再次迎來(lái)了類似于2023年初ChatGPT的時(shí)刻，讓每個(gè) ......

AI如果想要真正賦能全人類，讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能，那么高效性顯然是一個(gè)非常重要的命題。

我們認(rèn)為智能革命顯然也要走過(guò)一條類似于信息革命的階段，不斷去提高能力密度，降低計(jì)算成本，讓大模型得以更加普惠。

“DeepSeek R1的開(kāi)源，讓全球的人能夠意識(shí)到深度思考的能力。這相當(dāng)于讓整個(gè)人工智能領(lǐng)域再次迎來(lái)了類似于2023年初ChatGPT的時(shí)刻，讓每個(gè)人感受到大模型的能力又往前邁進(jìn)了一大步。但同時(shí)，我們也需要合理地評(píng)估DeepSeek本身的重要意義。”清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)日前在參與由中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇（CCF Young Computer Scientists & Engineers Forum，YOCSEF）策劃的直播活動(dòng)中表示，這場(chǎng)直播的主題為“夜話DeepSeek:技術(shù)原理與未來(lái)方向”，共同參與話題討論的還有復(fù)旦大學(xué)教授邱錫鵬、清華大學(xué)教授翟季冬等。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

直播截圖

在這場(chǎng)直播中，劉知遠(yuǎn)分析了DeepSeek成功出圈帶來(lái)的啟示，并分析了大模型技術(shù)未來(lái)發(fā)展的趨勢(shì)。劉知遠(yuǎn)認(rèn)為，DeepSeek V3展示了如何用十分之一甚至更少的成本完成達(dá)到GPT-4和GPT-4o水平的能力，此外DeepSeek R1的出圈也證明了OpenAI犯了“傲慢之罪”它不開(kāi)源，不公開(kāi)技術(shù)細(xì)節(jié)，且定價(jià)過(guò)高。

以下為劉知遠(yuǎn)在直播中的觀點(diǎn)實(shí)錄，經(jīng)本人同意發(fā)表：

今天我將從宏觀角度為大家介紹DeepSeek R1所代表的大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)，及其基本原理。同時(shí)，我們也會(huì)探討為什么DeepSeek R1能夠引起如此多的關(guān)注。

首先，我們來(lái)看DeepSeek最近發(fā)布的R1模型，它具有非常重要的價(jià)值。這種價(jià)值主要體現(xiàn)在DeepSeek R1能夠完美復(fù)現(xiàn)OpenAI o1的深度推理能力。

因?yàn)镺penAI o1本身并沒(méi)有提供關(guān)于其實(shí)現(xiàn)細(xì)節(jié)的任何信息，OpenAI o1相當(dāng)于引爆了一個(gè)原子彈，但沒(méi)有告訴大家秘方。而我們需要從頭開(kāi)始，自己去尋找如何復(fù)現(xiàn)這種能力的方法。DeepSeek可能是全球首個(gè)能夠通過(guò)純粹的強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn)OpenAI o1能力的團(tuán)隊(duì)，并且他們通過(guò)開(kāi)源并發(fā)布相對(duì)詳細(xì)的介紹，為行業(yè)做出了重要貢獻(xiàn)。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

我們可以大致總結(jié)了DeepSeek R1的整個(gè)訓(xùn)練流程，它有兩個(gè)非常重要的亮點(diǎn)或價(jià)值。首先，DeepSeek R1創(chuàng)造性地基于DeepSeek V3基座模型，通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)，得到了一個(gè)純粹通過(guò)強(qiáng)化學(xué)習(xí)增強(qiáng)的強(qiáng)推理模型，即DeepSeek-R1-Zero。這具有非常重要的價(jià)值，因?yàn)樵跉v史上幾乎沒(méi)有團(tuán)隊(duì)能夠成功地將強(qiáng)化學(xué)習(xí)技術(shù)很好地應(yīng)用于大規(guī)模模型上，并實(shí)現(xiàn)大規(guī)模訓(xùn)練。DeepSeek能夠?qū)崿F(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)的一個(gè)重要技術(shù)特點(diǎn)是其采用了基于規(guī)則（rule-based）的方法，確保強(qiáng)化學(xué)習(xí)可以規(guī)�；�(shí)現(xiàn)面向強(qiáng)化學(xué)習(xí)的擴(kuò)展（Scaling），這是它的第一個(gè)貢獻(xiàn)。

DeepSeek R1的第二個(gè)重要貢獻(xiàn)在于其強(qiáng)化學(xué)習(xí)技術(shù)不僅局限于數(shù)學(xué)、算法代碼等容易提供獎(jiǎng)勵(lì)信號(hào)的領(lǐng)域，還能創(chuàng)造性地將強(qiáng)化學(xué)習(xí)帶來(lái)的強(qiáng)推理能力泛化到其他領(lǐng)域。這也是用戶在實(shí)際使用DeepSeek R1進(jìn)行寫(xiě)作等任務(wù)時(shí)，能夠感受到其強(qiáng)大的深度思考能力的原因。

這種泛化能力的實(shí)現(xiàn)分為兩個(gè)階段。首先，基于DeepSeek V3基座模型，通過(guò)增強(qiáng)推理過(guò)程的可讀性，生成了帶有深度推理能力的SFT（Supervised Fine-Tuning，監(jiān)督微調(diào)）數(shù)據(jù)。這種數(shù)據(jù)結(jié)合了深度推理能力和傳統(tǒng)通用SFT數(shù)據(jù)，用于微調(diào)大模型。隨后，進(jìn)一步通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練，得到了具有強(qiáng)大泛化能力的強(qiáng)推理模型，即DeepSeek R1。

因此，DeepSeek R1的重要貢獻(xiàn)體現(xiàn)在兩個(gè)方面：一是通過(guò)規(guī)則驅(qū)動(dòng)的方法實(shí)現(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí)；二是通過(guò)深度推理 SFT數(shù)據(jù)與通用SFT數(shù)據(jù)的混合微調(diào)，實(shí)現(xiàn)了推理能力的跨任務(wù)泛化。這使得DeepSeek R1能夠成功復(fù)現(xiàn)OpenAI o1的推理水平。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

所以，我們其實(shí)應(yīng)該非常重視DeepSeek R1。它由于開(kāi)源，讓全球的人能夠意識(shí)到深度思考的能力，這相當(dāng)于讓整個(gè)人工智能領(lǐng)域再次迎來(lái)了類似于2023年初ChatGPT的時(shí)刻，讓每個(gè)人感受到大模型的能力又往前邁進(jìn)了一大步。但同時(shí)，我們也需要合理地評(píng)估DeepSeek本身的重要意義。

如果說(shuō)2023年初OpenAI發(fā)布的ChatGPT讓全球看到了大模型非常重要的價(jià)值，那么這一次的強(qiáng)推理能力其實(shí)也是OpenAI在2024年9月發(fā)布的o1率先實(shí)現(xiàn)的。而DeepSeek R1，我們認(rèn)為它在歷史上更像是2023年Meta的LLaMA。它能夠通過(guò)開(kāi)源復(fù)現(xiàn)，并且把這些事情全部公開(kāi)給全球，讓大家能夠快速地建立起相關(guān)能力，這是我們對(duì)DeepSeek R1及其重要意義的一個(gè)準(zhǔn)確認(rèn)識(shí)。

當(dāng)然，為什么說(shuō)DeepSeek R1能夠取得如此全球性的成功呢？我們認(rèn)為這與OpenAI采用的一些策略有非常大的關(guān)系。OpenAI 在發(fā)布o(jì)1之后，首先選擇不開(kāi)源，其次將o1深度思考的過(guò)程隱藏起來(lái)，第三是o1本身采用了非常高的收費(fèi)。這使得o1無(wú)法在全球范圍內(nèi)讓盡可能多的人普惠地感受到深度思考所帶來(lái)的震撼。

而DeepSeek R1則像2023年初OpenAI的ChatGPT一樣，讓所有人真正感受到了這種震撼，這是DeepSeek R1出圈的非常重要的原因。如果我們進(jìn)一步將DeepSeek發(fā)布的R1和之前的V3結(jié)合起來(lái)考慮，那么它的意義在于：在非常有限的算力資源支持下，通過(guò)強(qiáng)大的算法創(chuàng)新，突破了算力瓶頸，讓我們看到即使在有限的算力下，也能做出具有全球意義的領(lǐng)先成果。

這件事對(duì)中國(guó)AI的發(fā)展具有非常重要的意義。當(dāng)然，我們也應(yīng)該看到，AI如果想要真正賦能全人類，讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能，那么高效性顯然是一個(gè)非常重要的命題。

而在這個(gè)方面，我們其實(shí)有非常多的話題可以去討論。除了剛才我和邱錫鵬老師提到的強(qiáng)化學(xué)習(xí)本身需要在未來(lái)探索更加高效的方案之外，我們還需要研究出更加高效的模型架構(gòu)。例如，V3所采用的MoE架構(gòu)，未來(lái)應(yīng)該也會(huì)有許多其他相關(guān)的高效架構(gòu)方案。進(jìn)一步地，國(guó)浩和翟季冬老師稍后也會(huì)介紹高效的算力應(yīng)用等話題。

這其實(shí)也是DeepSeek V3和R1帶給我們的另一個(gè)非常重要的啟示。我們也會(huì)認(rèn)為，整個(gè)人工智能的發(fā)展在未來(lái)追求高效性是我們內(nèi)在的一個(gè)使命和需求。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

從這個(gè)方面，我想適當(dāng)展開(kāi)一點(diǎn)來(lái)介紹。我們會(huì)看到上一次所謂的科技革命，也就是信息革命，其非常重要的內(nèi)核實(shí)際上是計(jì)算芯片的發(fā)展。在過(guò)去80年時(shí)間里，計(jì)算機(jī)從最初需要一個(gè)屋子才能裝得下的規(guī)模，發(fā)展到如今每個(gè)人手邊都有的手機(jī)、PC，以及各種各樣的計(jì)算設(shè)備，都可以在非常小的設(shè)備上完成非常強(qiáng)大的計(jì)算能力。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

所有這一切，其實(shí)都源于芯片行業(yè)在摩爾定律的指引下，不斷推進(jìn)芯片制程，提升芯片電路密度，從而實(shí)現(xiàn)計(jì)算設(shè)備的小型化和普惠化，推動(dòng)算力的普及。這顯然是我們未來(lái)追求高效性的一個(gè)非常重要的內(nèi)在需求。

這也是為什么我們?cè)谌ツ晏貏e強(qiáng)調(diào)要發(fā)展大模型的能力密度。實(shí)際上，過(guò)去幾年我們也能看到類似摩爾定律的現(xiàn)象：大模型的能力密度正以時(shí)間的指數(shù)級(jí)增強(qiáng)。從2023年以來(lái)，大模型的能力密度大約每100天翻一倍，也就是說(shuō)，每過(guò)100天，我們只需要一半的算力和一半的參數(shù)就能實(shí)現(xiàn)相同的能力。

因此，我們相信，面向未來(lái)，我們應(yīng)該不斷追求更高的能力密度，努力以更低的成本包括訓(xùn)練成本和計(jì)算成本來(lái)實(shí)現(xiàn)大模型的高效發(fā)展。從這一點(diǎn)來(lái)看，我們顯然可以看到，如果按照能力密度的發(fā)展趨勢(shì)，我們完全可以實(shí)現(xiàn)每100天用一半的算力和一半的參數(shù)，達(dá)到相同的模型能力。而推動(dòng)這件事情，應(yīng)當(dāng)是我們未來(lái)發(fā)展的使命。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

所以，如果我們對(duì)標(biāo)上一個(gè)科技革命也就是信息革命，顯然對(duì)我們即將到來(lái)的智能革命有著非常重要的啟示。實(shí)際上，在信息革命剛剛開(kāi)始的時(shí)候，IBM的創(chuàng)始人沃森曾認(rèn)為，世界上不需要超過(guò)五臺(tái)主機(jī)就可以滿足全世界的計(jì)算需求。但到了今天，我們可以看到全球有數(shù)十億、上百億的計(jì)算設(shè)備在服務(wù)于全人類的社會(huì)。

因此，我們認(rèn)為智能革命顯然也要走過(guò)一條類似于信息革命的階段，不斷去提高能力密度，降低計(jì)算成本，讓大模型得以更加普惠。所以，我們會(huì)認(rèn)為AI時(shí)代的這些核心引擎，包括電力、算力以及大模型所代表的智力，這種密度定律應(yīng)該是普遍存在的。我們需要不斷地通過(guò)高質(zhì)量、可持續(xù)的方式去實(shí)現(xiàn)大模型的普惠，這應(yīng)該是我們未來(lái)的發(fā)展方向。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢

面向未來(lái)，我們認(rèn)為人工智能有三大主戰(zhàn)場(chǎng)，它們的目標(biāo)都是讓通用人工智能達(dá)到頂尖水平。首先，我們要探索人工智能的科學(xué)化技術(shù)方案，實(shí)現(xiàn)更科學(xué)、更高效的人工智能實(shí)現(xiàn)方式。其次，我們要實(shí)現(xiàn)計(jì)算系統(tǒng)的智能化，能夠在計(jì)算層面以更低的成本、更通用地將大模型應(yīng)用于各個(gè)領(lǐng)域。最后，我們也要在各個(gè)領(lǐng)域探索人工智能的廣譜化應(yīng)用。

以下是觀眾提問(wèn)環(huán)節(jié)：

OpenAI犯了“傲慢之罪”

Q: DeepSeek的成功因素里，最有亮點(diǎn)的一個(gè)技術(shù)是什么？

劉知遠(yuǎn)：我覺(jué)得主要有兩條啟示：DeepSeek V3給我們的重要啟示在于，它展示了如何用1/10甚至更少的成本完成達(dá)到GPT-4和GPT-4o水平的能力。DeepSeek V3在底層算力加速方面做了大量工作。但更重要的是，翟老師特別強(qiáng)調(diào)了DeepSeek V3實(shí)現(xiàn)了算法和底層軟硬件的協(xié)同優(yōu)化。這種一體化優(yōu)化機(jī)制讓大家看到，即使成本已經(jīng)很低，但仍然可以通過(guò)優(yōu)化進(jìn)一步降低成本。雖然V3的成本仍然是幾百萬(wàn)美元甚至幾千萬(wàn)美元，但相比國(guó)際上公認(rèn)的水平，已經(jīng)低得多。這也是英偉達(dá)股價(jià)下降的一個(gè)重要原因。

DeepSeek R1的啟示在于，OpenAI犯了“傲慢之罪”它不開(kāi)源，不公開(kāi)技術(shù)細(xì)節(jié)，且定價(jià)過(guò)高。而DeepSeek的R1則開(kāi)源且免費(fèi)，讓全球用戶都能使用，并且公開(kāi)了所有技術(shù)細(xì)節(jié)。這使得DeepSeek在歷史上占據(jù)了原本應(yīng)該屬于OpenAI的位置，就像當(dāng)年的ChatGPT一樣。DeepSeek通過(guò)極致優(yōu)化有限資源，成功追趕上了國(guó)際最先進(jìn)的模型，我覺(jué)得干的非常漂亮，并且通過(guò)開(kāi)源讓全球都認(rèn)識(shí)到中國(guó)團(tuán)隊(duì)的創(chuàng)新能力。

Q：為什么DeepSeek的 R1模型在這個(gè)時(shí)間點(diǎn)出現(xiàn)？之前有沒(méi)有基于基礎(chǔ)模型直接做強(qiáng)化學(xué)習(xí)的嘗試？之前也有模型在思維鏈上做過(guò)類似工作，為什么DeepSeek的R1模型會(huì)如此出圈？

劉知遠(yuǎn)：我覺(jué)得這件事情還是具有一定的必然性。大概在2024年的時(shí)候，很多投資人，甚至一些不從事人工智能領(lǐng)域的人，會(huì)來(lái)問(wèn)我：中國(guó)的AI和美國(guó)的AI相比，到底是差距變大了還是變小了？我當(dāng)時(shí)明確表示，我們認(rèn)為中國(guó)正在非�？焖俚刈汾s，與美國(guó)最先進(jìn)的技術(shù)之間的差距正在逐漸縮小。盡管我們面臨一些限制，但這種追趕是顯而易見(jiàn)的。

一個(gè)重要的現(xiàn)象可以驗(yàn)證這一點(diǎn)：2023年初ChatGPT和后面GPT-4發(fā)布后，國(guó)內(nèi)團(tuán)隊(duì)復(fù)現(xiàn)這兩個(gè)版本的模型大概都花了一年時(shí)間。2023年底，國(guó)內(nèi)團(tuán)隊(duì)復(fù)現(xiàn)了ChatGPT水平的模型能力；2024年四五月份，一線團(tuán)隊(duì)復(fù)現(xiàn)了GPT-4水平的能力。但隨后你會(huì)發(fā)現(xiàn)，像Sora、GPT-4o這樣的模型，基本上都是國(guó)內(nèi)團(tuán)隊(duì)在大約半年內(nèi)完成復(fù)現(xiàn)的。這意味著，像o1這樣的模型能力，國(guó)內(nèi)團(tuán)隊(duì)在半年左右復(fù)現(xiàn)是可預(yù)期的。

DeepSeek本身非常出色，其價(jià)值不僅在于能夠復(fù)現(xiàn)，還在于它以極低的成本做到了這一點(diǎn)。這是它的獨(dú)到之處，也是它脫穎而出的原因。但無(wú)論如何，國(guó)內(nèi)一線團(tuán)隊(duì)能夠在半年左右復(fù)現(xiàn)o1水平的模型能力，我認(rèn)為這是可以預(yù)期的。DeepSeek能夠更快、更低成本、更高效地完成這項(xiàng)工作，這是它的巨大貢獻(xiàn)。從這個(gè)角度看，我認(rèn)為有一定的必然性。

當(dāng)然，DeepSeek能夠達(dá)到這樣的出圈效果，也離不開(kāi)它自身團(tuán)隊(duì)的長(zhǎng)期積累，這正如剛才邱錫鵬老師提到的那樣。

Q:（評(píng)論區(qū)問(wèn)題）剛剛知遠(yuǎn)老師 PPT 里提到的能力密度是如何定義的？它的內(nèi)在原因是什么？

劉知遠(yuǎn)：這個(gè)“能力密度”的概念是我們最近半年提出的。關(guān)于如何有效地、準(zhǔn)確地衡量能力密度，大家可以參考我們發(fā)表在arxiv 上的論文，論文題目是《Densing law of LLMs》。

所謂的能力密度，可以理解為模型在各種評(píng)測(cè)集上展現(xiàn)出來(lái)的能力，除以其參數(shù)規(guī)模，或者說(shuō)是激活的參數(shù)規(guī)模。我們觀察過(guò)去一年半發(fā)布的代表性模型，發(fā)現(xiàn)其能力密度大約每100天增加一倍。這意味著每過(guò)100天，我們可以用一半的參數(shù)實(shí)現(xiàn)相同的能力。這一現(xiàn)象背后有多個(gè)因素影響：

1數(shù)據(jù)質(zhì)量：更高的數(shù)據(jù)質(zhì)量取決于數(shù)據(jù)治理。高質(zhì)量的數(shù)據(jù)能夠提升模型的訓(xùn)練效果。

2模型架構(gòu)：采用更稀疏激活的模型架構(gòu)，可以用更少的激活參數(shù)承載更多的能力。

3學(xué)習(xí)方法：包括OpenAI在內(nèi)的所有一線團(tuán)隊(duì)都在開(kāi)展所謂的“scaling prediction”。在真正訓(xùn)練模型之前，我們會(huì)進(jìn)行大量的風(fēng)洞實(shí)驗(yàn)，積累各種預(yù)測(cè)數(shù)據(jù)，以確定模型需要什么樣的數(shù)據(jù)配比和超參配置，從而達(dá)到最佳效果。

綜合這些因素，模型可以用更少的參數(shù)承載更多的能力。我們將這一現(xiàn)象類比為芯片行業(yè)的摩爾定律。摩爾定律告訴我們，每18個(gè)月，芯片上的電路密度會(huì)增加一倍。這一過(guò)程是通過(guò)不斷的技術(shù)發(fā)展實(shí)現(xiàn)的。

進(jìn)一步結(jié)合剛才翟老師和國(guó)浩老師提到的底層算力優(yōu)化，我們可以將這種優(yōu)化映射到模型訓(xùn)練階段，從而極大地降低成本。當(dāng)然，我們并不是說(shuō)DeepSeek的算力可以用1/10的成本實(shí)現(xiàn)與國(guó)外模型相同的能力，但這與Densing law（能力密度定律）有一定的重疊。

Densing Law更多地強(qiáng)調(diào)模型密度的不斷提高，這不僅體現(xiàn)在訓(xùn)練階段成本的降低，也體現(xiàn)在推理階段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我們認(rèn)為，未來(lái)AI的發(fā)展一定會(huì)沿著這條路線前進(jìn)。過(guò)去幾年的發(fā)展也在不斷驗(yàn)證這一點(diǎn)。一個(gè)直觀的體驗(yàn)是，像OpenAI這樣的公司，其API模型的價(jià)格（例如 ChatGPT 水平的模型和GPT-4水平的模型）在過(guò)去幾年中快速下降。這不僅僅是因?yàn)閮r(jià)格戰(zhàn)，而是因?yàn)樗鼈兛梢杂酶俚馁Y源實(shí)現(xiàn)相同的能力，從而以更低的成本提供服務(wù)。

我們認(rèn)為，高效性是未來(lái)AI發(fā)展的一個(gè)重要方向，也是我們迎來(lái)智能革命的一個(gè)重要前提。

Q: MoE架構(gòu)會(huì)是通向AGI道路上的最優(yōu)解嗎？

劉知遠(yuǎn)：我的個(gè)人感覺(jué)是，其實(shí)沒(méi)有人永遠(yuǎn)是對(duì)的。

在2023年初，OpenAI發(fā)布ChatGPT時(shí)，它做對(duì)了；它發(fā)布GPT-4時(shí)，也做對(duì)了。但當(dāng)它發(fā)布o(jì)1時(shí)，它做錯(cuò)了它沒(méi)有開(kāi)源，定價(jià)策略也出現(xiàn)了失誤。這反而成就了DeepSeek。我也不認(rèn)為DeepSeek選擇了MoE架構(gòu)，MoE就永遠(yuǎn)是正確的。沒(méi)有任何證據(jù)證明MoE是最優(yōu)的模型架構(gòu)。

從學(xué)術(shù)角度和AI未來(lái)發(fā)展的角度來(lái)看，我認(rèn)為這是一個(gè)開(kāi)放性的問(wèn)題。未來(lái)如何實(shí)現(xiàn)高效性？我認(rèn)為一定是模塊化和稀疏激活的，但具體如何稀疏激活、如何模塊化？我覺(jué)得這件事情本身應(yīng)該是百花齊放的。我們應(yīng)該保持開(kāi)放性，鼓勵(lì)學(xué)生和從業(yè)者像DeepSeek一樣努力去探索創(chuàng)新。

所以，我本身不太認(rèn)為MoE有任何絕對(duì)的壁壘，或者它一定是最優(yōu)的方法。

DeepSeek所做的工作可能也是“摸著OpenAI過(guò)河”

Q：DeepSeek技術(shù)的爆發(fā)，對(duì)于中國(guó)大模型未來(lái)發(fā)展道路有哪些啟示？

劉知遠(yuǎn)：首先，我覺(jué)得特別值得敬佩的是DeepSeek團(tuán)隊(duì)的技術(shù)理想主義。因?yàn)闊o(wú)論是看他們的訪談還是其他資料，你會(huì)發(fā)現(xiàn)，那些訪談其實(shí)是在DeepSeek大火之前很久接受的，內(nèi)容非常真實(shí)，能夠反映他們內(nèi)在的底層邏輯。從這一點(diǎn)上，我們可以感受到DeepSeek是一個(gè)非常具有技術(shù)理想主義的團(tuán)隊(duì)，以實(shí)現(xiàn) AGI 作為夢(mèng)想來(lái)組建這個(gè)團(tuán)隊(duì)。我覺(jué)得這一點(diǎn)是非常值得敬佩的。

我覺(jué)得同時(shí)也會(huì)看到，DeepSeek的梁文峰之前做量化投資，本身投入自己的資金來(lái)開(kāi)展項(xiàng)目，沒(méi)有資金上的困擾。那么相對(duì)應(yīng)地，我覺(jué)得中國(guó)應(yīng)該為這樣的技術(shù)理想主義團(tuán)隊(duì)提供支持，哪怕他們沒(méi)有足夠的資金，也能讓他們沒(méi)有后顧之憂地去進(jìn)行探索。我覺(jué)得中國(guó)已經(jīng)到了這樣的階段，需要有更多像DeepSeek這樣的團(tuán)隊(duì)，但又不像DeepSeek這樣有資金。能否讓他們踏踏實(shí)實(shí)地去做一些原始創(chuàng)新，做一些出色的工作，這是我覺(jué)得非常值得我們思考的第一點(diǎn)。

第二點(diǎn)，我覺(jué)得是他們的執(zhí)行力。DeepSeek今年這兩個(gè)月一炮而紅，大家會(huì)覺(jué)得很厲害，但實(shí)際上，這是經(jīng)過(guò)了多年持續(xù)積累的結(jié)果。我們看到的是他們不斷積累的進(jìn)步，量變最終產(chǎn)生了質(zhì)變。我可以告訴大家，幾年前，幻方就拿著免費(fèi)算力去吸引我們的學(xué)生，與他們建立聯(lián)系。當(dāng)然，也有學(xué)生畢業(yè)后加入了DeepSeek。所以，這是他們多年努力的結(jié)果。我認(rèn)為這也是技術(shù)理想主義推動(dòng)下的長(zhǎng)期主義成果。我覺(jué)得國(guó)內(nèi)應(yīng)該有更多的團(tuán)隊(duì)，能夠坐得住冷板凳，更加聚焦，在一些重要問(wèn)題上持續(xù)發(fā)力，做出有意義的工作。

DeepSeek發(fā)展到今天，我認(rèn)為他們所做的工作可能也是在“摸著OpenAI過(guò)河”，以O(shè)penAI為榜樣，去探索AGI的實(shí)現(xiàn)路徑，并努力去做他們認(rèn)為正確的事情。這個(gè)過(guò)程非常困難，尤其是隨著OpenAI變得越來(lái)越封閉，o1復(fù)現(xiàn)的難度比當(dāng)年的ChatGPT更大。但我們會(huì)看到，只要有理想和執(zhí)行力，他們就能做到。所以在我看來(lái)，國(guó)內(nèi)應(yīng)該有更多的團(tuán)隊(duì)去學(xué)習(xí)。具體的技術(shù)當(dāng)然是我們應(yīng)該學(xué)習(xí)的一部分，但我覺(jué)得應(yīng)該避免認(rèn)為因?yàn)镈eepSeek成功了，所以他們所做的一切都是對(duì)的。我覺(jué)得不一定他們所用的所有技術(shù)都是最先進(jìn)的。我覺(jué)得沒(méi)有必要因?yàn)镈eepSeek這次成功用了這樣那樣的技術(shù)，就認(rèn)為它們?nèi)际菍?duì)的。我覺(jué)得這反而會(huì)限制我們的創(chuàng)新。我覺(jué)得我們應(yīng)該學(xué)習(xí)的是他們的理想，學(xué)習(xí)的是他們的堅(jiān)持，學(xué)習(xí)的是他們的方法論。這是我想分享的第二點(diǎn)。

上一篇：神州數(shù)碼旗下神州鯤泰推理服務(wù)器全面支撐DeepSeek系列模型部署

下一篇：國(guó)金證券：AI產(chǎn)業(yè)鏈持續(xù)升溫，看好AI算力、端側(cè)、應(yīng)用發(fā)展

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:48:50 瀏覽：159次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:48:50 瀏覽：159次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯：自身算法的創(chuàng)新以及OpenAI的傲慢
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-06 10:48:50 瀏覽：159次