智東西(公眾號:zhidxcom)
編譯 | 陳駿達(dá)
編輯 | Panken
智東西2月12日消息,近日,OpenAI聯(lián)合創(chuàng)始人、前特斯拉AI總監(jiān)、知名計(jì)算機(jī)科學(xué)家李飛飛的愛徒安德烈卡帕西(Andrej Karpathy)在YouTube上發(fā)布一則3.5小時(shí)的超長免費(fèi)課程,向普通觀眾做了一次全面的大模型科普。其中,他花費(fèi)近半個(gè)小時(shí)時(shí)間,以最近爆火的DeepSeek-R1為例,詳解了背后強(qiáng)化學(xué)習(xí)技術(shù)路徑的巨大潛力。
卡帕西認(rèn)為,在大模型訓(xùn)練體系中,預(yù)訓(xùn)練、監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)是其中的三個(gè)主要階段,而“強(qiáng)化學(xué)習(xí)是一切調(diào)整到位的環(huán)節(jié)”。雖然強(qiáng)化學(xué)習(xí)的本質(zhì)并不復(fù)雜,即“試錯(cuò)學(xué)習(xí)”,但在如何選擇出最佳的解決方案、提示詞分布等問題上還有許多細(xì)節(jié)尚未明晰,僅停留于各大AI實(shí)驗(yàn)室內(nèi)部,缺乏統(tǒng)一標(biāo)準(zhǔn),解決這些問題并不容易。
因此,DeeSeek-R1研究論文的主要貢獻(xiàn)便是:“它首次公開討論了強(qiáng)化學(xué)習(xí)在大語言模型的應(yīng)用,并分享了這項(xiàng)技術(shù)是如何讓模型涌現(xiàn)出推理能力”。R1在強(qiáng)化學(xué)習(xí)過程中涌現(xiàn)出的思維能力,被卡帕西稱為“最令人難以置信的成效”。
未來,如果我們繼續(xù)在大模型領(lǐng)域?qū)?qiáng)化學(xué)習(xí)路徑進(jìn)行Scaling,就有望讓大模型也能解鎖像AlphaGo“第37步棋”那樣的“神之一手”,創(chuàng)造出人類從未設(shè)想過的思考方式,比如用一門全新的語言進(jìn)行思考。
不過,這一切實(shí)現(xiàn)的前提是,我們需要?jiǎng)?chuàng)造足夠大、足夠多樣的問題集,讓模型能自由地探索解決方案。
以下內(nèi)容是對卡帕西課程中涉及DeepSeek與強(qiáng)化學(xué)習(xí)內(nèi)容的總結(jié)提煉,完整視頻鏈接及課程材料已附于文末。
一、DeepSeek-R1驗(yàn)證強(qiáng)化學(xué)習(xí)魔力,卡帕西稱其“非?煽俊
強(qiáng)化學(xué)習(xí)的基本工作方式是讓模型在可驗(yàn)證的問題上(如數(shù)學(xué)、代碼)等領(lǐng)域不斷試錯(cuò),并根據(jù)答案的正誤去激勵(lì)那些得出正確答案的行為,最終引導(dǎo)模型實(shí)現(xiàn)能力提升?ㄅ廖鞣Q:“強(qiáng)化學(xué)習(xí)是一切調(diào)整到位的環(huán)節(jié)!
當(dāng)前主流的大語言模型訓(xùn)練體系主要包含三個(gè)階段:預(yù)訓(xùn)練、監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。預(yù)訓(xùn)練相當(dāng)于通讀所有教科書的基礎(chǔ)知識,構(gòu)建知識圖譜;SFT就像是模仿專家解題模板,學(xué)習(xí)規(guī)范化的解題流程;而RL則是通過海量練習(xí)題自主探索解題策略。
其中,前兩個(gè)階段的預(yù)訓(xùn)練和SFT已發(fā)展成熟,被行業(yè)廣泛采用。而最具突破性的RL仍處于早期發(fā)展階段。雖然OpenAI等公司內(nèi)部也有進(jìn)行嘗試,但從未對外界直接披露。
在卡帕西看來,DeepSeek-R1論文的重要意義,正是在于它是第一篇公開討論強(qiáng)化學(xué)習(xí)在大語言模型應(yīng)用的論文,并分享了這項(xiàng)技術(shù)是如何讓模型涌現(xiàn)出推理能力。這篇論文激發(fā)了AI界使用RL訓(xùn)練大語言模型的興趣,并提供了許多研究結(jié)果和技術(shù)細(xì)節(jié)。
DeepSeek在R1論文中分享了R1-Zero在AIME競賽數(shù)學(xué)問題上的準(zhǔn)確性提升過程?ㄅ廖鞣治龅,AIME數(shù)學(xué)題本身的難度并不是特別高,但是R1-Zero一開始的表現(xiàn)并不理想。隨著強(qiáng)化學(xué)習(xí)的步驟越來越多,模型的準(zhǔn)確性持續(xù)上升,因?yàn)樗谶@類問題上進(jìn)行了大量的試錯(cuò)。
比正確率提升還令人驚喜的是,模型在這一過程中打磨出了一套獨(dú)特的解決方式。在優(yōu)化的后期,模型傾向于使用更長的回答(也就是更多的token)來獲得更高的準(zhǔn)確性。
R1在RL的過程中涌現(xiàn)出了所謂的“aha moment”,這意味著它已經(jīng)發(fā)現(xiàn),嘗試更多想法,從不同角度嘗試、回溯、重構(gòu)問題,是能夠明顯提升準(zhǔn)確率的。
R1所做的事情其實(shí)與人類解決數(shù)學(xué)問題的模式類似。但這一解決方案并不靠模仿人類,也不是靠硬編碼,而是完全自然涌現(xiàn)的。R1重新發(fā)現(xiàn)了人腦的思維過程,自學(xué)了思維鏈(CoT)。在卡帕西看來,這是RL運(yùn)用于大語言模型時(shí),最令人難以置信的成效。
OpenAI的員工先前的公開言論顯示,OpenAI的o1、o3 mini等模型都使用了RL技術(shù)?ㄅ廖鞣Q就性能而言,這些模型和DeepSeek-R1大致相當(dāng),DeepSeek-R1是一款非常可靠的思考模型。
不過,并不是所有的模型都適合使用思考模型進(jìn)行處理,依照卡帕西的個(gè)人經(jīng)驗(yàn),他大約80%-90%的查詢依舊是由GPT-4o完成的,當(dāng)他遇到非常困難的代碼和數(shù)學(xué)問題時(shí),才會使用思考模型。
二、強(qiáng)化學(xué)習(xí)潛力早有端倪,有望徹底改變思考的形態(tài)
RL是一種極其強(qiáng)大的學(xué)習(xí)方式,這一發(fā)現(xiàn)對AI領(lǐng)域來說并不新鮮。AI界已經(jīng)在一個(gè)領(lǐng)域見證了這一點(diǎn),那就是圍棋。DeepMind開發(fā)的AlphaGo,通過自博弈和強(qiáng)化學(xué)習(xí),突破了人類棋手的實(shí)力上限。
當(dāng)我們研究AlphaGo的論文時(shí),可以發(fā)現(xiàn)一張與DeepSeek論文中極為類似的圖表。這張圖表顯示,隨著強(qiáng)化學(xué)習(xí)時(shí)間長度的不斷增加,強(qiáng)化學(xué)習(xí)模型(藍(lán)色實(shí)線)在圍棋上的得分也越來越高,最終超過藍(lán)色虛線所表示的李世石的得分。而紫色實(shí)現(xiàn)所代表的監(jiān)督學(xué)習(xí)模型在逼近人類棋手得分后,未能實(shí)現(xiàn)超越。
監(jiān)督學(xué)習(xí)模型本質(zhì)上是在模仿人類專業(yè)棋手,但如果只是試圖模仿他們,雖然能在一段時(shí)間里實(shí)現(xiàn)能力提升,但最終會達(dá)到一個(gè)瓶頸,永遠(yuǎn)無法從根本上超越人類玩家。
但在強(qiáng)化學(xué)習(xí)的過程中,模型的力量要大得多。在圍棋的強(qiáng)化學(xué)習(xí)中,系統(tǒng)會廣泛嘗試那些在經(jīng)驗(yàn)上和統(tǒng)計(jì)學(xué)意義上能贏得比賽的棋步。
AlphaGo會與自己對弈,并使用強(qiáng)化學(xué)習(xí)來創(chuàng)建推演。系統(tǒng)在學(xué)習(xí)過程中自主嘗試了很多棋步,最終那些制勝的策略會被加強(qiáng)。強(qiáng)化學(xué)習(xí)不會受到人類表現(xiàn)的限制,它甚至可以超越像李世石這樣的頂級玩家。
理論上,強(qiáng)化學(xué)習(xí)可以持續(xù)運(yùn)行,但由于成本原因,DeepMind團(tuán)隊(duì)選擇在某些時(shí)候停止,但這一案例充分展示了強(qiáng)化學(xué)習(xí)的潛力。而通過DeepSeek-R1,我們才開始看到強(qiáng)化學(xué)習(xí)在大語言模型的推理問題上更為泛化的潛力。
強(qiáng)化學(xué)習(xí)還讓AlphaGo能夠提出更為新穎的制勝方法這便是有名的“第37步”。在AlphaGo戰(zhàn)勝李世石的比賽中,它下了一步極為罕見的棋,人類棋手走出這樣一步棋的概率僅為萬分之一。
但事后看來,這是一步制勝的妙棋。AlphaGo在強(qiáng)化學(xué)習(xí)的過程中,發(fā)現(xiàn)了一種人類未知的下棋策略。
未來,如果我們繼續(xù)在大語言模型領(lǐng)域?qū)?qiáng)化學(xué)習(xí)路徑進(jìn)行Scaling,或許也有可能解鎖那些讓人類摸不著頭腦的解決方案?ㄅ廖髡J(rèn)為,這有可能包括發(fā)現(xiàn)人類無法發(fā)現(xiàn)的類比,全新的思考策略,甚至是發(fā)明一種更加適合思考的語言。
從原則上來講,強(qiáng)化學(xué)習(xí)系統(tǒng)的行為的條條框框要少很多,它會嘗試做任何能實(shí)現(xiàn)目標(biāo)的事情,也會逐漸偏離其原始訓(xùn)練數(shù)據(jù)中的語言(如英語)。但實(shí)現(xiàn)這些的前提是,我們需要為模型創(chuàng)造足夠大的問題集,讓模型能夠不斷優(yōu)化和完善其解決問題的策略。這正是目前許多大語言模型研究的前沿議題。
三、多模態(tài)AI與語言模型無本質(zhì)區(qū)別,測試時(shí)訓(xùn)練將成為前沿方向
卡帕西還在課程中預(yù)言了未來將會出現(xiàn)的幾大AI趨勢。
首先是多模態(tài)AI。由于音頻、圖片、視頻等內(nèi)容對AI模型來說沒有本質(zhì)區(qū)別,都可以被token化,因此只要采取大語言模型的訓(xùn)練邏輯和演進(jìn)路線,便能提升模型在相關(guān)領(lǐng)域的表現(xiàn)。
其次是agents。目前,大部分AI模型還是在執(zhí)行人類安排的任務(wù),沒有自行規(guī)劃長鏈條任務(wù)并執(zhí)行的能力還是其中的重要一環(huán)。
此外,測試時(shí)訓(xùn)練(test-time training)將會成為AI研究的前沿。在先前的訓(xùn)練模式中,訓(xùn)練后的參數(shù)就不會再變化了,這意味著模型停止了學(xué)習(xí),它們唯一學(xué)到的新東西就是在上下文窗口中的內(nèi)容。
但在未來,隨著多模態(tài)任務(wù)讓輸入token量呈現(xiàn)指數(shù)級增長,一味提升上下文窗口的容量將無法滿足模型性能提升的需求。測試時(shí)訓(xùn)練能讓模型根據(jù)新數(shù)據(jù)微調(diào)其參數(shù),讓其更擅長特定問題的解答。測試時(shí)訓(xùn)練有望提升AI能力的重要方向之一。
結(jié)語:DeepSeek的突破性成就廣受認(rèn)可
強(qiáng)化學(xué)習(xí)作為上一個(gè)世代AI能力突破的重要方向,由DeepSeek在生成式AI時(shí)代再度發(fā)揚(yáng)光大。然而,有不少海外競爭對手質(zhì)疑、貶低DeepSeek的成就和原創(chuàng)性。
但在不少像卡帕西這樣專注于技術(shù)本身的廣大AI開發(fā)者看來,DeepSeek獲得的種種開源突破,對整個(gè)AI界未來的發(fā)展來說是有利而無害的,他們也樂見DeepSeek創(chuàng)造出更多令人意想不到的驚喜。
完整視頻:https://www.youtube.com/watch?v=7xTGNNLPyMI&t