展會(huì)信息港展會(huì)大全

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-06 10:48:50   瀏覽:159次  

導(dǎo)讀:AI如果想要真正賦能全人類,讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能,那么高效性顯然是一個(gè)非常重要的命題。我們認(rèn)為智能革命顯然也要走過(guò)一條類似于信息革命的階段,不斷去提高能力密度,降低計(jì)算成本,讓大模型得以更加普惠。“DeepSeek R1的開(kāi)源,讓全球的人能夠意識(shí)到深度思考的能力。這相當(dāng)于讓整個(gè)人工智能領(lǐng)域再次迎來(lái)了類似于2023年初ChatGPT的時(shí)刻,讓每個(gè) ......

AI如果想要真正賦能全人類,讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能,那么高效性顯然是一個(gè)非常重要的命題。

我們認(rèn)為智能革命顯然也要走過(guò)一條類似于信息革命的階段,不斷去提高能力密度,降低計(jì)算成本,讓大模型得以更加普惠。

“DeepSeek R1的開(kāi)源,讓全球的人能夠意識(shí)到深度思考的能力。這相當(dāng)于讓整個(gè)人工智能領(lǐng)域再次迎來(lái)了類似于2023年初ChatGPT的時(shí)刻,讓每個(gè)人感受到大模型的能力又往前邁進(jìn)了一大步。但同時(shí),我們也需要合理地評(píng)估DeepSeek本身的重要意義。”清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)日前在參與由中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇(CCF Young Computer Scientists & Engineers Forum,YOCSEF)策劃的直播活動(dòng)中表示,這場(chǎng)直播的主題為“夜話DeepSeek:技術(shù)原理與未來(lái)方向”,共同參與話題討論的還有復(fù)旦大學(xué)教授邱錫鵬、清華大學(xué)教授翟季冬等。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

直播截圖

在這場(chǎng)直播中,劉知遠(yuǎn)分析了DeepSeek成功出圈帶來(lái)的啟示,并分析了大模型技術(shù)未來(lái)發(fā)展的趨勢(shì)。劉知遠(yuǎn)認(rèn)為,DeepSeek V3展示了如何用十分之一甚至更少的成本完成達(dá)到GPT-4和GPT-4o水平的能力,此外DeepSeek R1的出圈也證明了OpenAI犯了“傲慢之罪”它不開(kāi)源,不公開(kāi)技術(shù)細(xì)節(jié),且定價(jià)過(guò)高。

以下為劉知遠(yuǎn)在直播中的觀點(diǎn)實(shí)錄,經(jīng)本人同意發(fā)表:

今天我將從宏觀角度為大家介紹DeepSeek R1所代表的大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù),及其基本原理。同時(shí),我們也會(huì)探討為什么DeepSeek R1能夠引起如此多的關(guān)注。

首先,我們來(lái)看DeepSeek最近發(fā)布的R1模型,它具有非常重要的價(jià)值。這種價(jià)值主要體現(xiàn)在DeepSeek R1能夠完美復(fù)現(xiàn)OpenAI o1的深度推理能力。

因?yàn)镺penAI o1本身并沒(méi)有提供關(guān)于其實(shí)現(xiàn)細(xì)節(jié)的任何信息,OpenAI o1相當(dāng)于引爆了一個(gè)原子彈,但沒(méi)有告訴大家秘方。而我們需要從頭開(kāi)始,自己去尋找如何復(fù)現(xiàn)這種能力的方法。DeepSeek可能是全球首個(gè)能夠通過(guò)純粹的強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn)OpenAI o1能力的團(tuán)隊(duì),并且他們通過(guò)開(kāi)源并發(fā)布相對(duì)詳細(xì)的介紹,為行業(yè)做出了重要貢獻(xiàn)。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

我們可以大致總結(jié)了DeepSeek R1的整個(gè)訓(xùn)練流程,它有兩個(gè)非常重要的亮點(diǎn)或價(jià)值。首先,DeepSeek R1創(chuàng)造性地基于DeepSeek V3基座模型,通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù),得到了一個(gè)純粹通過(guò)強(qiáng)化學(xué)習(xí)增強(qiáng)的強(qiáng)推理模型,即DeepSeek-R1-Zero。這具有非常重要的價(jià)值,因?yàn)樵跉v史上幾乎沒(méi)有團(tuán)隊(duì)能夠成功地將強(qiáng)化學(xué)習(xí)技術(shù)很好地應(yīng)用于大規(guī)模模型上,并實(shí)現(xiàn)大規(guī)模訓(xùn)練。DeepSeek能夠?qū)崿F(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)的一個(gè)重要技術(shù)特點(diǎn)是其采用了基于規(guī)則(rule-based)的方法,確保強(qiáng)化學(xué)習(xí)可以規(guī);(shí)現(xiàn)面向強(qiáng)化學(xué)習(xí)的擴(kuò)展(Scaling),這是它的第一個(gè)貢獻(xiàn)。

DeepSeek R1的第二個(gè)重要貢獻(xiàn)在于其強(qiáng)化學(xué)習(xí)技術(shù)不僅局限于數(shù)學(xué)、算法代碼等容易提供獎(jiǎng)勵(lì)信號(hào)的領(lǐng)域,還能創(chuàng)造性地將強(qiáng)化學(xué)習(xí)帶來(lái)的強(qiáng)推理能力泛化到其他領(lǐng)域。這也是用戶在實(shí)際使用DeepSeek R1進(jìn)行寫(xiě)作等任務(wù)時(shí),能夠感受到其強(qiáng)大的深度思考能力的原因。

這種泛化能力的實(shí)現(xiàn)分為兩個(gè)階段。首先,基于DeepSeek V3基座模型,通過(guò)增強(qiáng)推理過(guò)程的可讀性,生成了帶有深度推理能力的SFT(Supervised Fine-Tuning,監(jiān)督微調(diào))數(shù)據(jù)。這種數(shù)據(jù)結(jié)合了深度推理能力和傳統(tǒng)通用SFT數(shù)據(jù),用于微調(diào)大模型。隨后,進(jìn)一步通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,得到了具有強(qiáng)大泛化能力的強(qiáng)推理模型,即DeepSeek R1。

因此,DeepSeek R1的重要貢獻(xiàn)體現(xiàn)在兩個(gè)方面:一是通過(guò)規(guī)則驅(qū)動(dòng)的方法實(shí)現(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí);二是通過(guò)深度推理 SFT數(shù)據(jù)與通用SFT數(shù)據(jù)的混合微調(diào),實(shí)現(xiàn)了推理能力的跨任務(wù)泛化。這使得DeepSeek R1能夠成功復(fù)現(xiàn)OpenAI o1的推理水平。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

所以,我們其實(shí)應(yīng)該非常重視DeepSeek R1。它由于開(kāi)源,讓全球的人能夠意識(shí)到深度思考的能力,這相當(dāng)于讓整個(gè)人工智能領(lǐng)域再次迎來(lái)了類似于2023年初ChatGPT的時(shí)刻,讓每個(gè)人感受到大模型的能力又往前邁進(jìn)了一大步。但同時(shí),我們也需要合理地評(píng)估DeepSeek本身的重要意義。

如果說(shuō)2023年初OpenAI發(fā)布的ChatGPT讓全球看到了大模型非常重要的價(jià)值,那么這一次的強(qiáng)推理能力其實(shí)也是OpenAI在2024年9月發(fā)布的o1率先實(shí)現(xiàn)的。而DeepSeek R1,我們認(rèn)為它在歷史上更像是2023年Meta的LLaMA。它能夠通過(guò)開(kāi)源復(fù)現(xiàn),并且把這些事情全部公開(kāi)給全球,讓大家能夠快速地建立起相關(guān)能力,這是我們對(duì)DeepSeek R1及其重要意義的一個(gè)準(zhǔn)確認(rèn)識(shí)。

當(dāng)然,為什么說(shuō)DeepSeek R1能夠取得如此全球性的成功呢?我們認(rèn)為這與OpenAI采用的一些策略有非常大的關(guān)系。OpenAI 在發(fā)布o(jì)1之后,首先選擇不開(kāi)源,其次將o1深度思考的過(guò)程隱藏起來(lái),第三是o1本身采用了非常高的收費(fèi)。這使得o1無(wú)法在全球范圍內(nèi)讓盡可能多的人普惠地感受到深度思考所帶來(lái)的震撼。

而DeepSeek R1則像2023年初OpenAI的ChatGPT一樣,讓所有人真正感受到了這種震撼,這是DeepSeek R1出圈的非常重要的原因。如果我們進(jìn)一步將DeepSeek發(fā)布的R1和之前的V3結(jié)合起來(lái)考慮,那么它的意義在于:在非常有限的算力資源支持下,通過(guò)強(qiáng)大的算法創(chuàng)新,突破了算力瓶頸,讓我們看到即使在有限的算力下,也能做出具有全球意義的領(lǐng)先成果。

這件事對(duì)中國(guó)AI的發(fā)展具有非常重要的意義。當(dāng)然,我們也應(yīng)該看到,AI如果想要真正賦能全人類,讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能,那么高效性顯然是一個(gè)非常重要的命題。

而在這個(gè)方面,我們其實(shí)有非常多的話題可以去討論。除了剛才我和邱錫鵬老師提到的強(qiáng)化學(xué)習(xí)本身需要在未來(lái)探索更加高效的方案之外,我們還需要研究出更加高效的模型架構(gòu)。例如,V3所采用的MoE架構(gòu),未來(lái)應(yīng)該也會(huì)有許多其他相關(guān)的高效架構(gòu)方案。進(jìn)一步地,國(guó)浩和翟季冬老師稍后也會(huì)介紹高效的算力應(yīng)用等話題。

這其實(shí)也是DeepSeek V3和R1帶給我們的另一個(gè)非常重要的啟示。我們也會(huì)認(rèn)為,整個(gè)人工智能的發(fā)展在未來(lái)追求高效性是我們內(nèi)在的一個(gè)使命和需求。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

從這個(gè)方面,我想適當(dāng)展開(kāi)一點(diǎn)來(lái)介紹。我們會(huì)看到上一次所謂的科技革命,也就是信息革命,其非常重要的內(nèi)核實(shí)際上是計(jì)算芯片的發(fā)展。在過(guò)去80年時(shí)間里,計(jì)算機(jī)從最初需要一個(gè)屋子才能裝得下的規(guī)模,發(fā)展到如今每個(gè)人手邊都有的手機(jī)、PC,以及各種各樣的計(jì)算設(shè)備,都可以在非常小的設(shè)備上完成非常強(qiáng)大的計(jì)算能力。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

所有這一切,其實(shí)都源于芯片行業(yè)在摩爾定律的指引下,不斷推進(jìn)芯片制程,提升芯片電路密度,從而實(shí)現(xiàn)計(jì)算設(shè)備的小型化和普惠化,推動(dòng)算力的普及。這顯然是我們未來(lái)追求高效性的一個(gè)非常重要的內(nèi)在需求。

這也是為什么我們?cè)谌ツ晏貏e強(qiáng)調(diào)要發(fā)展大模型的能力密度。實(shí)際上,過(guò)去幾年我們也能看到類似摩爾定律的現(xiàn)象:大模型的能力密度正以時(shí)間的指數(shù)級(jí)增強(qiáng)。從2023年以來(lái),大模型的能力密度大約每100天翻一倍,也就是說(shuō),每過(guò)100天,我們只需要一半的算力和一半的參數(shù)就能實(shí)現(xiàn)相同的能力。

因此,我們相信,面向未來(lái),我們應(yīng)該不斷追求更高的能力密度,努力以更低的成本包括訓(xùn)練成本和計(jì)算成本來(lái)實(shí)現(xiàn)大模型的高效發(fā)展。 從這一點(diǎn)來(lái)看,我們顯然可以看到,如果按照能力密度的發(fā)展趨勢(shì),我們完全可以實(shí)現(xiàn)每100天用一半的算力和一半的參數(shù),達(dá)到相同的模型能力。而推動(dòng)這件事情,應(yīng)當(dāng)是我們未來(lái)發(fā)展的使命。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

所以,如果我們對(duì)標(biāo)上一個(gè)科技革命也就是信息革命,顯然對(duì)我們即將到來(lái)的智能革命有著非常重要的啟示。實(shí)際上,在信息革命剛剛開(kāi)始的時(shí)候,IBM的創(chuàng)始人沃森曾認(rèn)為,世界上不需要超過(guò)五臺(tái)主機(jī)就可以滿足全世界的計(jì)算需求。但到了今天,我們可以看到全球有數(shù)十億、上百億的計(jì)算設(shè)備在服務(wù)于全人類的社會(huì)。

因此,我們認(rèn)為智能革命顯然也要走過(guò)一條類似于信息革命的階段,不斷去提高能力密度,降低計(jì)算成本,讓大模型得以更加普惠。所以,我們會(huì)認(rèn)為AI時(shí)代的這些核心引擎,包括電力、算力以及大模型所代表的智力,這種密度定律應(yīng)該是普遍存在的。我們需要不斷地通過(guò)高質(zhì)量、可持續(xù)的方式去實(shí)現(xiàn)大模型的普惠,這應(yīng)該是我們未來(lái)的發(fā)展方向。

劉知遠(yuǎn)詳解DeepSeek出圈背后的邏輯:自身算法的創(chuàng)新以及OpenAI的傲慢

面向未來(lái),我們認(rèn)為人工智能有三大主戰(zhàn)場(chǎng),它們的目標(biāo)都是讓通用人工智能達(dá)到頂尖水平。首先,我們要探索人工智能的科學(xué)化技術(shù)方案,實(shí)現(xiàn)更科學(xué)、更高效的人工智能實(shí)現(xiàn)方式。其次,我們要實(shí)現(xiàn)計(jì)算系統(tǒng)的智能化,能夠在計(jì)算層面以更低的成本、更通用地將大模型應(yīng)用于各個(gè)領(lǐng)域。最后,我們也要在各個(gè)領(lǐng)域探索人工智能的廣譜化應(yīng)用。

以下是觀眾提問(wèn)環(huán)節(jié):

OpenAI犯了“傲慢之罪”

Q: DeepSeek的成功因素里,最有亮點(diǎn)的一個(gè)技術(shù)是什么?

劉知遠(yuǎn):我覺(jué)得主要有兩條啟示:DeepSeek V3給我們的重要啟示在于,它展示了如何用1/10甚至更少的成本完成達(dá)到GPT-4和GPT-4o水平的能力。DeepSeek V3在底層算力加速方面做了大量工作。但更重要的是,翟老師特別強(qiáng)調(diào)了DeepSeek V3實(shí)現(xiàn)了算法和底層軟硬件的協(xié)同優(yōu)化。這種一體化優(yōu)化機(jī)制讓大家看到,即使成本已經(jīng)很低,但仍然可以通過(guò)優(yōu)化進(jìn)一步降低成本。雖然V3的成本仍然是幾百萬(wàn)美元甚至幾千萬(wàn)美元,但相比國(guó)際上公認(rèn)的水平,已經(jīng)低得多。這也是英偉達(dá)股價(jià)下降的一個(gè)重要原因。

DeepSeek R1的啟示在于,OpenAI犯了“傲慢之罪”它不開(kāi)源,不公開(kāi)技術(shù)細(xì)節(jié),且定價(jià)過(guò)高。而DeepSeek的R1則開(kāi)源且免費(fèi),讓全球用戶都能使用,并且公開(kāi)了所有技術(shù)細(xì)節(jié)。這使得DeepSeek在歷史上占據(jù)了原本應(yīng)該屬于OpenAI的位置,就像當(dāng)年的ChatGPT一樣。DeepSeek通過(guò)極致優(yōu)化有限資源,成功追趕上了國(guó)際最先進(jìn)的模型,我覺(jué)得干的非常漂亮,并且通過(guò)開(kāi)源讓全球都認(rèn)識(shí)到中國(guó)團(tuán)隊(duì)的創(chuàng)新能力。

Q:為什么DeepSeek的 R1模型在這個(gè)時(shí)間點(diǎn)出現(xiàn)?之前有沒(méi)有基于基礎(chǔ)模型直接做強(qiáng)化學(xué)習(xí)的嘗試?之前也有模型在思維鏈上做過(guò)類似工作,為什么DeepSeek的R1模型會(huì)如此出圈?

劉知遠(yuǎn):我覺(jué)得這件事情還是具有一定的必然性。大概在2024年的時(shí)候,很多投資人,甚至一些不從事人工智能領(lǐng)域的人,會(huì)來(lái)問(wèn)我:中國(guó)的AI和美國(guó)的AI相比,到底是差距變大了還是變小了?我當(dāng)時(shí)明確表示,我們認(rèn)為中國(guó)正在非?焖俚刈汾s,與美國(guó)最先進(jìn)的技術(shù)之間的差距正在逐漸縮小。盡管我們面臨一些限制,但這種追趕是顯而易見(jiàn)的。

一個(gè)重要的現(xiàn)象可以驗(yàn)證這一點(diǎn):2023年初ChatGPT和后面GPT-4發(fā)布后,國(guó)內(nèi)團(tuán)隊(duì)復(fù)現(xiàn)這兩個(gè)版本的模型大概都花了一年時(shí)間。2023年底,國(guó)內(nèi)團(tuán)隊(duì)復(fù)現(xiàn)了ChatGPT水平的模型能力;2024年四五月份,一線團(tuán)隊(duì)復(fù)現(xiàn)了GPT-4水平的能力。但隨后你會(huì)發(fā)現(xiàn),像Sora、GPT-4o這樣的模型,基本上都是國(guó)內(nèi)團(tuán)隊(duì)在大約半年內(nèi)完成復(fù)現(xiàn)的。這意味著,像o1這樣的模型能力,國(guó)內(nèi)團(tuán)隊(duì)在半年左右復(fù)現(xiàn)是可預(yù)期的。

DeepSeek本身非常出色,其價(jià)值不僅在于能夠復(fù)現(xiàn),還在于它以極低的成本做到了這一點(diǎn)。這是它的獨(dú)到之處,也是它脫穎而出的原因。但無(wú)論如何,國(guó)內(nèi)一線團(tuán)隊(duì)能夠在半年左右復(fù)現(xiàn)o1水平的模型能力,我認(rèn)為這是可以預(yù)期的。DeepSeek能夠更快、更低成本、更高效地完成這項(xiàng)工作,這是它的巨大貢獻(xiàn)。從這個(gè)角度看,我認(rèn)為有一定的必然性。

當(dāng)然,DeepSeek能夠達(dá)到這樣的出圈效果,也離不開(kāi)它自身團(tuán)隊(duì)的長(zhǎng)期積累,這正如剛才邱錫鵬老師提到的那樣。

Q:(評(píng)論區(qū)問(wèn)題)剛剛知遠(yuǎn)老師 PPT 里提到的能力密度是如何定義的?它的內(nèi)在原因是什么?

劉知遠(yuǎn):這個(gè)“能力密度”的概念是我們最近半年提出的。關(guān)于如何有效地、準(zhǔn)確地衡量能力密度,大家可以參考我們發(fā)表在arxiv 上的論文,論文題目是《Densing law of LLMs》。

所謂的能力密度,可以理解為模型在各種評(píng)測(cè)集上展現(xiàn)出來(lái)的能力,除以其參數(shù)規(guī)模,或者說(shuō)是激活的參數(shù)規(guī)模。我們觀察過(guò)去一年半發(fā)布的代表性模型,發(fā)現(xiàn)其能力密度大約每100天增加一倍。這意味著每過(guò)100天,我們可以用一半的參數(shù)實(shí)現(xiàn)相同的能力。這一現(xiàn)象背后有多個(gè)因素影響:

1數(shù)據(jù)質(zhì)量:更高的數(shù)據(jù)質(zhì)量取決于數(shù)據(jù)治理。高質(zhì)量的數(shù)據(jù)能夠提升模型的訓(xùn)練效果。

2模型架構(gòu):采用更稀疏激活的模型架構(gòu),可以用更少的激活參數(shù)承載更多的能力。

3學(xué)習(xí)方法:包括OpenAI在內(nèi)的所有一線團(tuán)隊(duì)都在開(kāi)展所謂的“scaling prediction”。在真正訓(xùn)練模型之前,我們會(huì)進(jìn)行大量的風(fēng)洞實(shí)驗(yàn),積累各種預(yù)測(cè)數(shù)據(jù),以確定模型需要什么樣的數(shù)據(jù)配比和超參配置,從而達(dá)到最佳效果。

綜合這些因素,模型可以用更少的參數(shù)承載更多的能力。我們將這一現(xiàn)象類比為芯片行業(yè)的摩爾定律。摩爾定律告訴我們,每18個(gè)月,芯片上的電路密度會(huì)增加一倍。這一過(guò)程是通過(guò)不斷的技術(shù)發(fā)展實(shí)現(xiàn)的。

進(jìn)一步結(jié)合剛才翟老師和國(guó)浩老師提到的底層算力優(yōu)化,我們可以將這種優(yōu)化映射到模型訓(xùn)練階段,從而極大地降低成本。當(dāng)然,我們并不是說(shuō)DeepSeek的算力可以用1/10的成本實(shí)現(xiàn)與國(guó)外模型相同的能力,但這與Densing law(能力密度定律)有一定的重疊。

Densing Law更多地強(qiáng)調(diào)模型密度的不斷提高,這不僅體現(xiàn)在訓(xùn)練階段成本的降低,也體現(xiàn)在推理階段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我們認(rèn)為,未來(lái)AI的發(fā)展一定會(huì)沿著這條路線前進(jìn)。過(guò)去幾年的發(fā)展也在不斷驗(yàn)證這一點(diǎn)。一個(gè)直觀的體驗(yàn)是,像OpenAI這樣的公司,其API模型的價(jià)格(例如 ChatGPT 水平的模型和GPT-4水平的模型)在過(guò)去幾年中快速下降。這不僅僅是因?yàn)閮r(jià)格戰(zhàn),而是因?yàn)樗鼈兛梢杂酶俚馁Y源實(shí)現(xiàn)相同的能力,從而以更低的成本提供服務(wù)。

我們認(rèn)為,高效性是未來(lái)AI發(fā)展的一個(gè)重要方向,也是我們迎來(lái)智能革命的一個(gè)重要前提。

Q: MoE架構(gòu)會(huì)是通向AGI道路上的最優(yōu)解嗎?

劉知遠(yuǎn):我的個(gè)人感覺(jué)是,其實(shí)沒(méi)有人永遠(yuǎn)是對(duì)的。

在2023年初,OpenAI發(fā)布ChatGPT時(shí),它做對(duì)了;它發(fā)布GPT-4時(shí),也做對(duì)了。但當(dāng)它發(fā)布o(jì)1時(shí),它做錯(cuò)了它沒(méi)有開(kāi)源,定價(jià)策略也出現(xiàn)了失誤。這反而成就了DeepSeek。我也不認(rèn)為DeepSeek選擇了MoE架構(gòu),MoE就永遠(yuǎn)是正確的。沒(méi)有任何證據(jù)證明MoE是最優(yōu)的模型架構(gòu)。

從學(xué)術(shù)角度和AI未來(lái)發(fā)展的角度來(lái)看,我認(rèn)為這是一個(gè)開(kāi)放性的問(wèn)題。未來(lái)如何實(shí)現(xiàn)高效性?我認(rèn)為一定是模塊化和稀疏激活的,但具體如何稀疏激活、如何模塊化?我覺(jué)得這件事情本身應(yīng)該是百花齊放的。我們應(yīng)該保持開(kāi)放性,鼓勵(lì)學(xué)生和從業(yè)者像DeepSeek一樣努力去探索創(chuàng)新。

所以,我本身不太認(rèn)為MoE有任何絕對(duì)的壁壘,或者它一定是最優(yōu)的方法。

DeepSeek所做的工作可能也是“摸著OpenAI過(guò)河”

Q:DeepSeek技術(shù)的爆發(fā),對(duì)于中國(guó)大模型未來(lái)發(fā)展道路有哪些啟示?

劉知遠(yuǎn):首先,我覺(jué)得特別值得敬佩的是DeepSeek團(tuán)隊(duì)的技術(shù)理想主義。因?yàn)闊o(wú)論是看他們的訪談還是其他資料,你會(huì)發(fā)現(xiàn),那些訪談其實(shí)是在DeepSeek大火之前很久接受的,內(nèi)容非常真實(shí),能夠反映他們內(nèi)在的底層邏輯。從這一點(diǎn)上,我們可以感受到DeepSeek是一個(gè)非常具有技術(shù)理想主義的團(tuán)隊(duì),以實(shí)現(xiàn) AGI 作為夢(mèng)想來(lái)組建這個(gè)團(tuán)隊(duì)。我覺(jué)得這一點(diǎn)是非常值得敬佩的。

我覺(jué)得同時(shí)也會(huì)看到,DeepSeek的梁文峰之前做量化投資,本身投入自己的資金來(lái)開(kāi)展項(xiàng)目,沒(méi)有資金上的困擾。那么相對(duì)應(yīng)地,我覺(jué)得中國(guó)應(yīng)該為這樣的技術(shù)理想主義團(tuán)隊(duì)提供支持,哪怕他們沒(méi)有足夠的資金,也能讓他們沒(méi)有后顧之憂地去進(jìn)行探索。我覺(jué)得中國(guó)已經(jīng)到了這樣的階段,需要有更多像DeepSeek這樣的團(tuán)隊(duì),但又不像DeepSeek這樣有資金。能否讓他們踏踏實(shí)實(shí)地去做一些原始創(chuàng)新,做一些出色的工作,這是我覺(jué)得非常值得我們思考的第一點(diǎn)。

第二點(diǎn),我覺(jué)得是他們的執(zhí)行力。DeepSeek今年這兩個(gè)月一炮而紅,大家會(huì)覺(jué)得很厲害,但實(shí)際上,這是經(jīng)過(guò)了多年持續(xù)積累的結(jié)果。我們看到的是他們不斷積累的進(jìn)步,量變最終產(chǎn)生了質(zhì)變。我可以告訴大家,幾年前,幻方就拿著免費(fèi)算力去吸引我們的學(xué)生,與他們建立聯(lián)系。當(dāng)然,也有學(xué)生畢業(yè)后加入了DeepSeek。所以,這是他們多年努力的結(jié)果。我認(rèn)為這也是技術(shù)理想主義推動(dòng)下的長(zhǎng)期主義成果。我覺(jué)得國(guó)內(nèi)應(yīng)該有更多的團(tuán)隊(duì),能夠坐得住冷板凳,更加聚焦,在一些重要問(wèn)題上持續(xù)發(fā)力,做出有意義的工作。

DeepSeek發(fā)展到今天,我認(rèn)為他們所做的工作可能也是在“摸著OpenAI過(guò)河”,以O(shè)penAI為榜樣,去探索AGI的實(shí)現(xiàn)路徑,并努力去做他們認(rèn)為正確的事情。這個(gè)過(guò)程非常困難,尤其是隨著OpenAI變得越來(lái)越封閉,o1復(fù)現(xiàn)的難度比當(dāng)年的ChatGPT更大。但我們會(huì)看到,只要有理想和執(zhí)行力,他們就能做到。所以在我看來(lái),國(guó)內(nèi)應(yīng)該有更多的團(tuán)隊(duì)去學(xué)習(xí)。具體的技術(shù)當(dāng)然是我們應(yīng)該學(xué)習(xí)的一部分,但我覺(jué)得應(yīng)該避免認(rèn)為因?yàn)镈eepSeek成功了,所以他們所做的一切都是對(duì)的。我覺(jué)得不一定他們所用的所有技術(shù)都是最先進(jìn)的。我覺(jué)得沒(méi)有必要因?yàn)镈eepSeek這次成功用了這樣那樣的技術(shù),就認(rèn)為它們?nèi)际菍?duì)的。我覺(jué)得這反而會(huì)限制我們的創(chuàng)新。我覺(jué)得我們應(yīng)該學(xué)習(xí)的是他們的理想,學(xué)習(xí)的是他們的堅(jiān)持,學(xué)習(xí)的是他們的方法論。這是我想分享的第二點(diǎn)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港