展會(huì)信息港展會(huì)大全

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-24 18:57:41   瀏覽:3199次  

導(dǎo)讀:前段時(shí)間 OpenAI 發(fā)布了針對復(fù)雜推理問題的大模型o1,也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注,但基本上都是關(guān)于使用和測評的。這篇文章,我們就來看看,o1模型的背后,其創(chuàng)新、原理分別是什么。 60s速讀 簡介:o1是OpenAI 9月12日發(fā)布的針對復(fù)...

前段時(shí)間 OpenAI 發(fā)布了針對復(fù)雜推理問題的大模型o1,也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注,但基本上都是關(guān)于使用和測評的。這篇文章,我們就來看看,o1模型的背后,其創(chuàng)新、原理分別是什么。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

60s速讀

簡介:o1是OpenAI 9月12日發(fā)布的針對復(fù)雜推理問題的全新大模型,也就是Sam一直說的“草莓”。該模型在回答問題之前能夠進(jìn)行更長時(shí)間的“思考”,且思考時(shí)間越長,推理質(zhì)量越高。

原理:基于強(qiáng)化學(xué)習(xí)的內(nèi)化思維鏈學(xué)習(xí),通過思維鏈?zhǔn)降膯栴}拆解,模型可以不斷驗(yàn)證和糾錯(cuò)。

表現(xiàn):o1模型在編程、數(shù)學(xué)、物理和化學(xué)博士級問題等任務(wù)上提升顯著,但在寫作等任務(wù)上表現(xiàn)不如GPT4o。

構(gòu)成:o1系列包括o1、o1-preview和o1-mini。o1暫未公開,o1-preiview 付費(fèi)用戶和API用戶已經(jīng)可以使用。o1-mini 速度更快、性價(jià)比更高。

影響:新的Scaling Laws已經(jīng)出現(xiàn)。

Ilya 一句話概括強(qiáng)化學(xué)習(xí):讓 AI 用隨機(jī)的路徑嘗試新的任務(wù),如果效果超預(yù)期,那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,使得 AI 記住多使用這個(gè)成功的事件,再開始下一次的嘗試。

Self-play:本質(zhì)是利用 AI 無限的計(jì)算能力來補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

Critic Model:通過將推理過程進(jìn)行過程分解,并且利用額外的更強(qiáng)更專項(xiàng)的Critic Model,可以將推理過程的監(jiān)督擴(kuò)展到更復(fù)雜的問題上。

技術(shù)路線猜想:1. MCTS搜索;2. PRM僅在答案不可接受時(shí)進(jìn)行MCTS搜索,或者用的是更節(jié)約的Beam Search;3. 迭代式的Bootstrap模型產(chǎn)生合理推理的能力,并將 Rationales 融入到訓(xùn)練過程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理,類似于STaR的擴(kuò)展版本。

逆向工程:由合成數(shù)據(jù)生成器、獎(jiǎng)勵(lì)函數(shù)、策略優(yōu)化器等模塊構(gòu)成。

相關(guān)論文:Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。

團(tuán)隊(duì):o1 的21個(gè) Foundational 貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化的特點(diǎn):華人占比6/21,博士為主,但也有人有?平(jīng)歷。

Github o1相關(guān)資料匯總:https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景:OpenAI為什么現(xiàn)在發(fā)布新模型o1?

雖然OpenAI 2024年 年化營收預(yù)計(jì)將從前一年的20億美元大幅增長至約35億美元,但仍無法覆蓋其90億的推理、訓(xùn)練成本。

目前來說,OpenAI訂閱的商業(yè)模式很難稱得上是一個(gè)好的變現(xiàn)手段,更無法與廣告這一互聯(lián)網(wǎng)時(shí)代最佳商業(yè)模式相提并論。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(OpenAI營收變化趨勢,來源:tooltester)

在營收構(gòu)成上,C端用戶訂閱、企業(yè)用戶、API和ChatGPT Team業(yè)務(wù)分別占營收的55%、21%、15%和8%。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(OpenAI營收構(gòu)成,來源:tooltester)

據(jù)The Information測算,在一年虧損50億美元的情況下,OpenAI的現(xiàn)金流可能在未來一年內(nèi)耗荊因此,繼續(xù)融資成為了OpenAI必然的選擇。據(jù)彭博社消息,OpenAI目前正在商談以1500億美元的估值融資65億,這一估值遠(yuǎn)高于去年10月時(shí)的860億美元。

除此之外,首席科學(xué)家Ilya等核心人才出走,流量增長放緩,Sora“期貨”遲遲未兌現(xiàn),GPT-5不停跳票,大語言模型預(yù)訓(xùn)練Scaling Law的邊際效益遞減,增長空間被質(zhì)疑……在OpenAI發(fā)布o(jì)1模型之前,由ChatGPT發(fā)布引領(lǐng)的大模型革命陷入了前所未有的低谷。

與此同時(shí),OpenAI的主要競爭對手之一Anthropic ,從落后于 OpenAI 18 個(gè)月,在o1發(fā)布前已經(jīng)在模型層面追平,甚至有微弱的領(lǐng)先優(yōu)勢了。Anthropic 6月發(fā)布的 Claude-3.5-Sonnet ,支持寫200行可靠的代碼,遠(yuǎn)超4o的20 行。

如下圖所示,OpenAI自2022年11月ChatGPT發(fā)布以來的流量增長已經(jīng)幾乎停滯。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(ChatGPT訪問量變化趨勢,來源:tooltester)

與此相對應(yīng)的,一二級市場的AI熱潮正在持續(xù)降溫。

一級市場方面,VC資金對AI初創(chuàng)公司投資占比在持續(xù)上升,占比接近30%,但是在金額上已經(jīng)回落到2020年的水平,降幅明顯。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(VC對AI初創(chuàng)公司的投資金額和占比,來源:硅谷科技評論)

二級市場上,投資者的AI抱團(tuán)追漲行情開始有了瓦解的跡象,以英偉達(dá)等公司為代表的美股AGIX指數(shù)從高點(diǎn)開始回落,幾乎回到了半年前的水平。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(AGI指數(shù),來源:海外獨(dú)角獸)

在這樣的背景下,通過全新的大模型o1給投資人“畫餅”成為了OpenAI絕佳的選擇。

二、現(xiàn)象:o1模型的超強(qiáng)推理能力1. OpenAI的模型迭代史

作為OpenAI在2023年GPT4發(fā)布以來最重要的模型更新,o1在數(shù)學(xué)、代碼等方面推理能力顯著提升。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(OpenAI的主要大模型及其發(fā)布時(shí)間,來源:tooltester)

2. 數(shù)據(jù):o1在STEM領(lǐng)域表現(xiàn)出色,特別是在數(shù)學(xué)和編程方面

2.1 數(shù)學(xué)方面,在2024年的AIME(一個(gè)旨在挑戰(zhàn)美國最聰明高中生的考試)測評中,GPT-4o只解決了13%的問題,o1的得分是83%。

2.2 編碼方面,GPT-4o在競爭性編程問題(Codeforces)上的得分是11%,o1 是89%。

2.3 在博士級別的科學(xué)問題(GPQA Diamond),GPT4o是56.1%,o1則超越人類博士69.7%,達(dá)到了恐怖的78%。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(o1與gpt4o的對比,來源:OpenAI官網(wǎng))

2.4 在啟用視覺感知功能時(shí),多模態(tài)o1在MMMU上得分為78.2%,成為第一個(gè)與人類專家競爭的模型。在博士級別的科學(xué)問題上,特別是物理和化學(xué)領(lǐng)域,o1更是大幅領(lǐng)先人類博士。

2.5 在IOI(國際信息學(xué)奧林匹克競賽)中在每題 50 次提交的條件下取得了第 49%/213分。在每題10,000次提交的情況下,該模型的得分達(dá)到了362,超過了金牌門檻。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(o1與gpt4o的對比,來源:OpenAI官網(wǎng))

2.6 安全性

衡量安全性的一種方法是測試模型在用戶試圖繞過安全規(guī)則時(shí)(稱為“越獄”)是否繼續(xù)遵守這些規(guī)則。在最困難的越獄測試中,GPT-4o 得分為 22/100,而o1-preview 模型得分為 84/100。

2.7 不足

通用人工智能的核心是通用和泛化性,但o1在寫作、文字編輯等一些簡單的自然語言處理任 務(wù)上并沒有顯著提升,這意味著o1的適用范圍有一定的局限性。

3. 創(chuàng)新:self-play RL+內(nèi)化COT

作為首個(gè)通過大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練的模型,o1能夠在回答之前深入思考問題。o1不再需要由用戶輸入復(fù)雜的COT提示詞,而是通過強(qiáng)化學(xué)習(xí)的方式,將思維鏈內(nèi)化之后進(jìn)行持續(xù)訓(xùn)練。

通過思維鏈?zhǔn)降膯栴}拆解,模型可以不斷驗(yàn)證、糾錯(cuò),嘗試新的方法,這一過程顯著提升了模型的推理能力。

o1的性能隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和更多的思考時(shí)間(測試時(shí)間計(jì)算)而持續(xù)提高。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(o1 性能隨著訓(xùn)練時(shí)間和測試時(shí)間計(jì)算而平穩(wěn)提升,來源:OpenAI官網(wǎng))

通過強(qiáng)化學(xué)習(xí)+內(nèi)化思維鏈的方式,o1不僅在量化的推理指標(biāo)上有了顯著提升,在定性的推理可解釋性上也有了明顯的改善?尚诺乃季S鏈?zhǔn)鼓P妥兊每山忉,讓用戶可以用簡單的英語“讀懂模型的思維。

內(nèi)化的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì)。假設(shè)它是忠實(shí)且清晰的,內(nèi)化的思維鏈允許OpenAI“讀取”模型的思考過程。未來OpenAI可能希望監(jiān)控思維鏈?zhǔn)欠裼胁倏赜脩舻嫩E象。為了實(shí)現(xiàn)這一目標(biāo),模型必須能夠以未經(jīng)修改的形式表達(dá)其思想,因此OpenAI不能在思維鏈上訓(xùn)練任何政策合規(guī)性或用戶偏好。

4. 通俗的理解:系統(tǒng)1與系統(tǒng)2

可以這樣理解,模型進(jìn)行的是系統(tǒng)1思維,而思維鏈則解鎖了系統(tǒng)2思維。

眾所周知,通過提示模型“逐步思考”可以提升大模型的性能。而通過強(qiáng)化學(xué)習(xí)訓(xùn)練,逐步拆解問題并從頭到尾持續(xù)試錯(cuò),將會(huì)進(jìn)一步大幅提升大模型的性能。正如我們之前在圍棋方面的AlphGo以及其它游戲方面的算法模型上所看到的。

系統(tǒng)1與系統(tǒng)2來自諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾卡尼曼的《思考,快與慢》,其核心觀點(diǎn)包括:

系統(tǒng) 1:快速、直觀、自動(dòng)的思維方式。

這種思維模式通常是無意識的,依賴于直覺和經(jīng)驗(yàn),能迅速做出反應(yīng)。例如,看到一個(gè)熟悉的面孔時(shí),我們幾乎無需思考便能認(rèn)出它。

系統(tǒng) 2:慢速、深思熟慮、邏輯性的思維方式。

這種思維模式需要有意識的努力和思考,用于解決復(fù)雜問題或做出深思熟慮的決策。例如,解決數(shù)學(xué)題或計(jì)劃長期目標(biāo)時(shí),我們會(huì)調(diào)動(dòng)系統(tǒng) 2 的思維。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(系統(tǒng)1與系統(tǒng)2的對比,來源:簡書)

5. 案例

案例網(wǎng)上很多,這里只簡單提下“草莓”這個(gè)最經(jīng)典的案例。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

草莓的梗最初是因?yàn)槿藗儨y試GPT系列的時(shí)候,發(fā)現(xiàn)了模型無法數(shù)對草莓這個(gè)單詞里面的r的數(shù)量。而OpenAI的新模型可以通過self-play的方式提升模型Reasoning的能力,從而數(shù)對r的數(shù)量。于是這個(gè)名叫草莓的模型就開始在網(wǎng)上不斷發(fā)酵,并在Sam各種有意無意的暗示中升溫。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

6. 業(yè)界關(guān)于o1模型的正負(fù)面觀點(diǎn)

6.1 正面觀點(diǎn)

Jason Wei,OpenAI研究員,COT作者:

“通過將復(fù)雜步驟分解為更簡單的步驟、識別和糾正錯(cuò)誤,以及嘗試不同的方法,o1 的表現(xiàn)完全令人驚嘆,游戲規(guī)則已經(jīng)被徹底重新定義。”

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

楊植麟,Kimi創(chuàng)始人:

“規(guī)模定律之后,大模型發(fā)展的下一個(gè)范式是強(qiáng)化學(xué)習(xí)。對于通用智能AGI來講,可能會(huì)有三個(gè)層面:最底層是規(guī);桑@是第一個(gè)層次的創(chuàng)新機(jī)會(huì),它被OpenAI發(fā)現(xiàn),并且做到極致。第二個(gè)層次的創(chuàng)新機(jī)會(huì),就是Scaling law框架下有一些問題沒有解決,比如怎么把所有的模態(tài)用統(tǒng)一的表示放到同一個(gè)模型里面去?這是第二個(gè)層次的挑戰(zhàn)。第三層次的問題,比如能夠去做更長的上下文,能夠有更強(qiáng)的 reasoning 或者 instruction-following 。

決定這一代AI技術(shù)的上限,核心是文本模型能力的上限,如果文本模型能持續(xù)提升智商,就能做越來越復(fù)雜的任務(wù)。AI產(chǎn)品的能力由模型能力的決定,這和互聯(lián)網(wǎng)時(shí)代有本質(zhì)不同,模型能力不強(qiáng),產(chǎn)品體驗(yàn)就不會(huì)好。AI時(shí)代的超級應(yīng)用,大概率會(huì)是一個(gè)AI助理。這一代AI最大的變量,還是在生產(chǎn)力端,F(xiàn)在社會(huì)里面每一單位的生產(chǎn)力可能都會(huì)有十倍提升的機(jī)會(huì)。”

肖仰華,復(fù)旦計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博導(dǎo):

“o1模型的出現(xiàn)意味著大模型的推理能力完全能夠達(dá)到專家級水平,算得上是人工智能里程碑式的進(jìn)展,將給模型在企業(yè)端的應(yīng)用帶來極大的提升。但隨著模型在知性、感性和理性三方面的能力均不斷提升后,其將超越人類的能力,未來人工智能將對人類產(chǎn)生何種影響還很難預(yù)測,人工智能的發(fā)展速度現(xiàn)在超過了人類對其認(rèn)知的速度,人工智能治理將是一個(gè)巨大挑戰(zhàn)。

大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在訓(xùn)練過程中有效使用其思維鏈進(jìn)行思考,o1模型可以在回應(yīng)用戶之前產(chǎn)生一個(gè)很長的內(nèi)部思維鏈。以前的大語言模型更像一個(gè)文科生,距離理科生的水平仍然較遠(yuǎn)。但人類智能的核心能力是思考和思維,OpenAI新推理模型o1系列將人的思維過程展現(xiàn)出來。

我們發(fā)現(xiàn)o1的表現(xiàn)超過了一些人類專家,成為第一個(gè)在這個(gè)基準(zhǔn)上做到這一點(diǎn)的模型。這些結(jié)果并不意味著o1在所有方面都比博士更有能力,只是模型在解決博士需要解決的一些問題方面更熟練。人類目前對人工智能基本認(rèn)知框架都有所欠缺,這是一個(gè)巨大的治理挑戰(zhàn),就業(yè)、經(jīng)濟(jì)、倫理、社會(huì)關(guān)系等話題將引起廣泛討論。”

6.2 負(fù)面觀點(diǎn)

復(fù)旦NLP實(shí)驗(yàn)室:

“博士級”模型GPT-o1折戟中學(xué)數(shù)學(xué)“陷阱”問題,準(zhǔn)確率僅為24.3%

我們的最新研究結(jié)果卻給這個(gè)”AI天才”潑了一盆冷水在面對中學(xué)數(shù)學(xué)水平的”陷阱”問題時(shí),GPT-o1慘遭滑鐵盧:在我們最新的中學(xué)陷阱問題測試集MathTrap_Public上,調(diào)用GPT-o1-preview官方API后生成的回答準(zhǔn)確率僅為24.3% 。

我們在 GSM8K 和 MATH 數(shù)據(jù)集問題的基礎(chǔ)上,加入了一些“陷阱”,構(gòu)造了 MathTrap 數(shù)據(jù)集。這些改編后的題目很多時(shí)候沒有定義明確的答案或者無解,只有能夠同時(shí)理解原題和“陷阱”所涉及知識的模型,才能找出其中的矛盾點(diǎn),發(fā)現(xiàn)“陷阱”所在。

因此,單靠“刷榜”來提高在 GSM8K 和 MATH 上的成績,是沒辦法在 MathTrap 上取得好成績的,因?yàn)檫@些模型缺乏質(zhì)疑題目條件的能力。

相關(guān)研究:Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

7. 如何使用

7.1 ChatGPT付費(fèi)用戶

ChatGPT Plus和Team用戶從9月12日可以開始在ChatGPT中訪問o1模型。o1-preview和o1-mini可以在模型選擇器中手動(dòng)選擇,o1-preview的每周消息限制為50條,o1-mini 為每天50條。ChatGPT Enterprise 和 Edu 用戶將在下周開始訪問這兩個(gè)模型。

符合 API 使用等級 5 的開發(fā)者可以立即開始在 API 中使用這兩個(gè)模型,限制為每分鐘 20 次請求。OpenAI還計(jì)劃將 o1-mini 的訪問權(quán)限擴(kuò)展到所有 ChatGPT 免費(fèi)用戶。

7.2 非ChatGPT付費(fèi)用戶

Cursor已經(jīng)支持了最新的o1模型,沒有ChatGPT會(huì)員權(quán)限的可以通過這個(gè)產(chǎn)品進(jìn)行體驗(yàn)。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

8. 影響和意義

8.1 對大模型行業(yè)的影響

新的Scaling Laws Post-Training Scaling Laws(后訓(xùn)練擴(kuò)展定律)已經(jīng)出現(xiàn),并可能引發(fā)行業(yè)對于算力分配、后訓(xùn)練能力的重新思考。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

o1 模型的發(fā)布,意味著 AI 能力的提升不再局限于預(yù)訓(xùn)練階段,還可以通過在 Post-Training 階段中提升 RL 訓(xùn)練的探索時(shí)間和增加模型推理思考時(shí)間來實(shí)現(xiàn)性能提升,即 Post-Training Scaling Laws。

數(shù)據(jù)飛輪 + Bootstrap -> SuperIntelligence : 基于自我反思的模型將能夠?qū)崿F(xiàn)自舉 Bootstrap,并提升大大提升模型對于未見過的復(fù)雜問題的解決能力,模型的推理過程形成大量高質(zhì)量數(shù)據(jù)的飛輪,并最終有可能向 SuperIntelligence 更進(jìn)一步。

8.2 AI能力的等級躍遷

AI開始具備推理能力,且復(fù)雜問題的解決能力可以與人類相媲美,這意味著AI從僅能利用工具和規(guī)則的 Level 1 水平開始進(jìn)化到了 Level 2 的階段,并向第3階段開始探索。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(5 Levels Of AI Agents,來源:cobusgreyling)

8.3 對從業(yè)人員的影響

1)AI產(chǎn)品經(jīng)理的危與機(jī)

危:一方面,隨著o1將思維鏈內(nèi)化進(jìn)模型,大幅降低了提示詞工程的難度。這意味著AI產(chǎn)品經(jīng)理未來大概率不再需要設(shè)計(jì)復(fù)雜的提示詞,剛剛興起1年多的“提示詞工程師”崗位風(fēng)雨飄搖,AI產(chǎn)品經(jīng)理也同樣將因此受到很大的沖擊。

之前解決復(fù)雜問題,需要人寫非常復(fù)雜的Prompt,而o1本質(zhì)上是COT等復(fù)雜Prompt的自動(dòng)化,所以之后是不需要用戶自己構(gòu)造復(fù)雜Prompt的。

機(jī):另一方面,隨著o1代碼能力的大幅提升,代碼編寫的門檻得到了一定程度的降低,AI產(chǎn)品經(jīng)理有機(jī)會(huì)設(shè)計(jì)、開發(fā)、上線一條龍完成,大大提升AI產(chǎn)品MVP迭代的效率。

2)工程

雖然AI取代工程開發(fā)還言之尚早,但大模型在短時(shí)間內(nèi)的進(jìn)步之大還是讓人震驚,初級開發(fā)的門檻與AI越來越模糊。也許在不遠(yuǎn)的將來,英文就將成為最流行的編程語言。

而短期來說,工程開發(fā)的效率有望借助o1模型和Cursor等工具產(chǎn)品進(jìn)一步提升。

3)算法

雖然強(qiáng)化學(xué)習(xí)算法在InstructGPT的論文中就已經(jīng)被提及,但之前更多是作為RLHF基于人類反饋的強(qiáng)化學(xué)習(xí)的視角進(jìn)行切入,很少作為單獨(dú)的方向被重點(diǎn)提出。

o1模型發(fā)布后,強(qiáng)化學(xué)習(xí)的重要性大大提高,其在大模型領(lǐng)域的應(yīng)用有望成為接下來一段時(shí)間國內(nèi)大模型公司混戰(zhàn)的新焦點(diǎn)。

三、背后:技術(shù)原理與相關(guān)論文1. 基礎(chǔ)知識

1.1 強(qiáng)化學(xué)習(xí)

機(jī)器學(xué)習(xí)算法主要分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三類。無監(jiān)督學(xué)習(xí)相當(dāng)于學(xué)生自學(xué),沒有任何老師指導(dǎo),完全依靠學(xué)生自己琢磨;監(jiān)督學(xué)習(xí)相當(dāng)于有老師指導(dǎo),有明確對錯(cuò)的學(xué)習(xí);強(qiáng)化學(xué)習(xí)則是做對題目有獎(jiǎng)勵(lì),做錯(cuò)題目有懲罰的學(xué)習(xí)。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種基于反饋的學(xué)習(xí)方法,對算法執(zhí)行的正確和不正確行為分別進(jìn)行獎(jiǎng)勵(lì)和懲罰的制度,目的是使算法獲得最大的累積獎(jiǎng)勵(lì),從而學(xué)會(huì)在特定環(huán)境下做出最佳決策。“強(qiáng)化”一詞來自于心理學(xué),心理學(xué)中的“強(qiáng)化”就是通過提供一種刺激手段來建立或者鼓勵(lì)一種行為模式。這種“強(qiáng)化”具體分為兩種:

積極強(qiáng)化,是指在預(yù)期行為呈現(xiàn)后,通過給予激勵(lì)刺激以增加進(jìn)一步導(dǎo)致積極反應(yīng)。

負(fù)面強(qiáng)化,通過提供適當(dāng)?shù)拇碳頊p少出現(xiàn)負(fù)面(不希望的)反應(yīng)的可能性,從而糾正不希望出現(xiàn)的行為。

想象一下,當(dāng)你第一次自己玩超級馬里奧,你需要在游戲中不斷探索環(huán)境和重要的NPC,一個(gè)錯(cuò)誤的舉動(dòng)會(huì)導(dǎo)致失去一條“命”,一個(gè)正確的跳躍可以把我們帶到一個(gè)更安全的地方獲得金幣獎(jiǎng)勵(lì)!在n次獎(jiǎng)勵(lì)和懲罰的探索之后,你對于馬里奧游戲的熟練程度越來越高,操作的正確性大大提升,最終成為一個(gè)該游戲的高手。

1.2 Self-play

Self-play 是 AlphaZero 等強(qiáng)化學(xué)習(xí)算法的合成數(shù)據(jù)方法,最早可以追溯到 1992 年的 TD-Gammon 算法,其本質(zhì)是利用 AI 無限的計(jì)算能力來補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

以 AlphaZero 為例,在每一局對弈中,模型使用蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)來選擇動(dòng)作。MCTS 結(jié)合了當(dāng)前神經(jīng)網(wǎng)絡(luò)提供的策略(policy)和價(jià)值(value),從而在每個(gè)游戲狀態(tài)下評估出最優(yōu)的行動(dòng)。其具體步驟如下:

1) 隨機(jī)初始化:模型從完全隨機(jī)初始化的狀態(tài)開始,沒有任何人類先驗(yàn)知識。

2) self-play:模型自己與自己進(jìn)行對弈,生成大量的游戲數(shù)據(jù)。其中好的結(jié)果用于更新模型的參數(shù)。

3) MCTS:在每一次對弈中,AlphaZero 會(huì)使用 MCTS 來搜索最佳動(dòng)作。MCTS 使用策略網(wǎng)絡(luò) (policy network) 提供的動(dòng)作概率分布和價(jià)值網(wǎng)絡(luò)提供的局面評估結(jié)果來引導(dǎo)搜索。

4) 策略更新:根據(jù)自我對弈的結(jié)果,使用強(qiáng)化學(xué)習(xí)的方式來更新神經(jīng)網(wǎng)絡(luò)的參數(shù),使得模型逐步學(xué)習(xí)到更優(yōu)的策略

1.3 Self-play強(qiáng)化學(xué)習(xí)、RLHF

早在2018 年,Ilya Sutskever就認(rèn)為強(qiáng)化學(xué)習(xí)與 self-play 是通往 AGI 路上最關(guān)鍵的方法之一。Ilya 用一句話概括了強(qiáng)化學(xué)習(xí):讓 AI 用隨機(jī)的路徑嘗試新的任務(wù),如果效果超預(yù)期,那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重,使得 AI 記住多使用這個(gè)成功的事件,再開始下一次的嘗試。

1)傳統(tǒng)強(qiáng)化學(xué)習(xí)與self-play的區(qū)別:傳統(tǒng)強(qiáng)化學(xué)習(xí)與今天的 self-play 強(qiáng)化學(xué)習(xí)相比,最大的區(qū)別是強(qiáng)化學(xué)習(xí)算法模型(如AlphaZero)是一個(gè)千萬參數(shù)的神經(jīng)網(wǎng)絡(luò),和今天的語言模型相差 3-4 個(gè)數(shù)量級。

2)Self-play 強(qiáng)化學(xué)習(xí)與RLHF 的區(qū)別:RLHF 的目的不是獲取機(jī)器智能,而是人機(jī)對齊,使得 AI 能夠更像人,但不能超越人成為超級智能。簡單來說:RLHF 像人類一樣,更喜歡好理解的東西,而不是喜歡邏輯更嚴(yán)密的內(nèi)容。而 self-play 強(qiáng)化學(xué)習(xí)的目標(biāo)是如何提升邏輯能力,絕對強(qiáng)度更高,甚至超越最強(qiáng)人類、專家。

3)RLHF 的核心是通過強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型,但由于缺乏獎(jiǎng)勵(lì)函數(shù)這一必要因素,因此需要通過收集人類的反饋來學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)。

4)強(qiáng)化學(xué)習(xí)不是一個(gè)模型,而是一整套的系統(tǒng),其中包含了很多因素,第一,強(qiáng)化學(xué)習(xí)包括了智能體,其中的 agent 就是模型。第二,包括了環(huán)境,環(huán)境可能是狗主人的家,也可能是編程環(huán)境,也可能是垂直領(lǐng)域。第三,包括了動(dòng)作,是狗坐下,還是一些其他模態(tài)的輸出。第四,包括了獎(jiǎng)勵(lì)模型,這也很重要。最重要的兩個(gè)因素是環(huán)境和智能體。智能體的目標(biāo)是得到更多獎(jiǎng)勵(lì)。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(強(qiáng)化學(xué)習(xí)構(gòu)成,來源:海外獨(dú)角獸)

強(qiáng)化學(xué)習(xí)在語言模型中的思路,本質(zhì)上是 inference time 換 training time 。

1.4 為什么 RLHF 的效果優(yōu)于 SFT?

PPO 算法的提出者是Berkeley PhD,OpenAI前研究員 John Schulman,他針對 RLHF PPO 提出了兩個(gè)觀點(diǎn):

第一,SFT 會(huì)導(dǎo)致 hallucination :

John Schulman 認(rèn)為,大型模型之所以會(huì)產(chǎn)生幻覺,是因?yàn)樗鼈冊?SFT 階段學(xué)到了一些不正確的認(rèn)知。SFT 過強(qiáng)的監(jiān)督信號導(dǎo)致人類實(shí)際上在引導(dǎo) ChatGPT 說它不知道的東西。還有一種可能性,即 GPT 實(shí)際上知道答案,但標(biāo)注人員不知道。

第二,RLHF 讓大模型“知道”自己“確實(shí)不知道”。

RLHF 的過程不僅幫助模型意識到不確定性,更重要的事情是 RLHF 幫助模型提高了 reasoning 能力。

只有通過正向和反向的雙重實(shí)驗(yàn),我們才可以判斷這種藥物對頭痛有效。如果只有正向的例子,例如說患者吃了感冒藥,感冒變好了,并不能證明感冒藥能治好感冒。只能說明,感冒藥與患者感冒的好轉(zhuǎn)有一定相關(guān)性。而 RLHF 正是成功利用了負(fù)向數(shù)據(jù),使得模型有機(jī)會(huì)真正掌握因果性。

總結(jié)來說,RLHF 有以下優(yōu)勢:

使用 negative signal 進(jìn)行對比學(xué)習(xí),通過對比的過程可以幫助模型降低 halluciation。

強(qiáng)化學(xué)習(xí)不是一個(gè)固定的過程。它允許模型隨著能力的不斷提升,通過不斷地問問題、給出答案、評判,從而讓模型不停地從當(dāng)前能力的邊界進(jìn)行主動(dòng)探索,并不斷拓寬自己的能力邊界。

這兩個(gè)因素共同作用能夠形成 counter-factual reasoning 的作用,有可能解鎖因果學(xué)習(xí)(casual learning)的巨大潛力,讓模型具備更強(qiáng)的 reasoning 能力。

1.5 PRM與ORM

PRM(Process reward model)是獎(jiǎng)勵(lì)好的推理步驟,而不僅僅是正確的結(jié)果。這更接近人類的學(xué)習(xí)和推理方式,實(shí)現(xiàn)方式常常是用 COT 來表示推理過程,對每一步進(jìn)行打分。這是因?yàn)?LLM 的語義理解能力才成為可能的。在傳統(tǒng) RL 中,我們按照最終結(jié)果評分,其評分模型稱為 ORM(outcome reward model);而通過專門訓(xùn)練 LLM 成為 process verifier ,新的評分模型叫做 PRM,往往是使較小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓(xùn)練的 PRM 在解決 MATH 數(shù)據(jù)集測試集中 78.2%的問題時(shí)表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到,PRM 在過程中一旦成功發(fā)現(xiàn)第一個(gè)錯(cuò)誤,就能使 RL 訓(xùn)練效果顯著提升。

1.6 Critic Model

隨著任務(wù)復(fù)雜度的提高,僅僅依靠模型的自身推理能力可能無法提供有效的獎(jiǎng)勵(lì)信號。這使得對于模型內(nèi)部的復(fù)雜推理過程的監(jiān)督變成了一個(gè)可擴(kuò)展監(jiān)督問題。

具體來說,o1的隱式思維鏈的訓(xùn)練過程中應(yīng)當(dāng)也引入了Critic的方法。通過將推理過程進(jìn)行過程分解,并且利用額外的更強(qiáng)更專項(xiàng)的Critic Model,可以將推理過程的監(jiān)督擴(kuò)展到更復(fù)雜的問題上。這也一定程度緩解了僅僅是通過推理過程能否導(dǎo)出正確結(jié)果的來確定獎(jiǎng)勵(lì)信號的稀疏問題。

OpenAI的CriticGPT通過RLHF方法訓(xùn)練模型能夠?yàn)檎鎸?shí)世界中的代碼任務(wù)書寫自然語言反饋,并成功泛化到OOD(模型在訓(xùn)練過程中沒有遇到過的數(shù)據(jù))的分布上。這種反饋可以用來幫助人類進(jìn)行更準(zhǔn)確的評價(jià),從而實(shí)現(xiàn)對于復(fù)雜輸出的有效獎(jiǎng)勵(lì)反潰

2. 關(guān)于技術(shù)原理的猜想

2.1 OpenAI官方的“提示”

通過強(qiáng)化學(xué)習(xí),o1 學(xué)會(huì)了精煉其思維鏈并優(yōu)化所用的策略。它學(xué)會(huì)了識別并糾正錯(cuò)誤,將復(fù)雜的步驟分解為更簡單的部分,并在當(dāng)前方法無效時(shí)嘗試不同的途徑。這一過程顯著提升了模型的推理能力。

o1 模型引入了推理標(biāo)記。模型使用這些推理標(biāo)記進(jìn)行“思考”,分解對提示的理解并考慮多種生成響應(yīng)的方法。生成推理標(biāo)記后,模型會(huì)將答案生成為可見的完成標(biāo)記,并從其上下文中丟棄推理標(biāo)記。

以下是用戶與助手之間多步驟對話的示例。每個(gè)步驟的輸入和輸出標(biāo)記都會(huì)被保留,而推理標(biāo)記則會(huì)被丟棄。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

(推理是如何進(jìn)行的,OpenAI官網(wǎng))

2.2 猜想1

張俊林:MCTS搜索技術(shù)路線

OpenAI o1提到了關(guān)于RL在訓(xùn)練和推理時(shí)候的Scaling law,并指出這與預(yù)訓(xùn)練時(shí)候的Scaling law具有不同特性。很明顯,如果o1走的是MCTS搜索技術(shù)路線,那么把COT拆分的越細(xì)(增加搜索樹的深度),或提出更多的可能選擇(節(jié)點(diǎn)的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好COT路徑可能性越大,效果越好,而訓(xùn)練和推理的時(shí)候需要算力肯定越大?瓷先ビ兄ЧS著算力增長而增長的態(tài)勢,也就是所謂的RL的Scaling law。這其實(shí)是樹搜索本來應(yīng)有之義,我倒覺得把這個(gè)稱為RL的Scaling law有點(diǎn)名不副實(shí)。

2.3 猜想2

科技新聞 周小燕 郝博陽:PRM僅在答案不可接受時(shí)進(jìn)行MCTS式的搜索,或者用的是更節(jié)約的Beam Search。

從反應(yīng)時(shí)間和token消耗兩方面看,根據(jù)Hackernews上使用了API的開發(fā)者推算,o1進(jìn)行推理所消耗的token是其給出答案token的10倍,是未進(jìn)行思維鏈的GPT-4o mini 所用token的60-100倍。如果采用能看三步的、每步形成5個(gè)候選,單層深度的Lookahead Search就會(huì)消耗45倍token。但用到了思維鏈每步都需要進(jìn)行一次Lookahead Search的話,就會(huì)遠(yuǎn)超100倍token。另外考慮到MCTS這么大的計(jì)算量,目前o1的反饋時(shí)間是遠(yuǎn)遠(yuǎn)不夠的。

但如果僅用思維鏈,即使是非常復(fù)雜的問題,token消耗最多也就是達(dá)到5-10倍。其60倍token消耗又太大了。

2.4 猜想3

北大對齊團(tuán)隊(duì):o1運(yùn)用的技術(shù)關(guān)鍵還是在于強(qiáng)化學(xué)習(xí)的搜索與學(xué)習(xí)機(jī)制,基于LLM已有的推理能力,迭代式的Bootstrap模型產(chǎn)生合理推理(Rationales)的能力,并將 Rationales 融入到訓(xùn)練過程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理,而后再運(yùn)用足夠強(qiáng)大的計(jì)算量實(shí)現(xiàn)Post-Training階段的Scaling。類似于STaR的擴(kuò)展版本。

模型學(xué)習(xí)的是產(chǎn)生合理推理的過程,MCTS 在其中的作用是誘導(dǎo)合理推理過程的產(chǎn)生或構(gòu)建相應(yīng)的偏序?qū)π纬杉?xì)粒度獎(jiǎng)勵(lì)信號,而非直接搜索過程和最終答案。

為了優(yōu)化這一過程,產(chǎn)生了一系列方法,其中包括在 Token 級別或子句級別提供獎(jiǎng)勵(lì)信號,幫助模型調(diào)整生成的回答。這些方法如MCTS,將輸出建模為一系列節(jié)點(diǎn),這些節(jié)點(diǎn)可以是 Token 級別或句子級別。例如:

Token 級別的節(jié)點(diǎn):每個(gè)節(jié)點(diǎn)對應(yīng)生成序列中的一個(gè) Token。通過 MCTS,模型可以探索不同的 Token 序列,最終生成更連貫的響應(yīng)。

句子級別的節(jié)點(diǎn):在復(fù)雜推理任務(wù)中,每個(gè)節(jié)點(diǎn)可以代表一個(gè)完整的句子或推理步驟,幫助模型更好地處理多步推理任務(wù)。

3. 相關(guān)論文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,也就是著名的COT。

主要內(nèi)容:通過一系列中間推理步驟,能顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力,提出了一種名為“chain of thought prompting”的方法,通過提供幾個(gè)思維鏈條示例,無需對模型進(jìn)行微調(diào),就能自然地激發(fā)大型語言模型的推理能力,實(shí)驗(yàn)結(jié)果表明該方法在算術(shù)、常識和符號推理任務(wù)上顯著提高了三種大型語言模型的表現(xiàn)。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

鏈?zhǔn)剿季S推理能力的涌現(xiàn):鏈?zhǔn)剿季S推理能力并非所有模型都具備,而是隨著模型規(guī)模的擴(kuò)大而逐漸涌現(xiàn)。對于需要多步推理的任務(wù),鏈?zhǔn)剿季S提示能夠顯著提升模型性能,尤其是在大型語言模型上表現(xiàn)尤為突出。

該方法也為提升模型可解釋性和魯棒性提供了新的思路。

CoT 通過分步推理的方式,要求模型在生成最終答案之前,先生成一系列中間推理步驟。這種 “思考鏈” 的生成過程有助于增強(qiáng)模型的推理能力,尤其在數(shù)學(xué)和代碼生成等任務(wù)中表現(xiàn)出色。

然而,CoT雖然能夠生成中間步驟,但并未教會(huì)模型如何從內(nèi)部深入思考問題的關(guān)聯(lián)。特別是對于尤其復(fù)雜且需要多步推理規(guī)劃的任務(wù),這樣的合理的中間 CoT 推理過程(Rationales) 更為重要。

3.2 Ilya等人的Let’s Verify Step by Step

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

主要內(nèi)容:比較了兩種訓(xùn)練大型語言模型進(jìn)行復(fù)雜推理的方法:結(jié)果監(jiān)督和過程監(jiān)督,并得出以下主要貢獻(xiàn):

1)過程監(jiān)督比結(jié)果監(jiān)督更有效

研究表明,過程監(jiān)督訓(xùn)練出的獎(jiǎng)勵(lì)模型比結(jié)果監(jiān)督更可靠,能夠解決 MATH 數(shù)據(jù)集 78.2% 的問題,而結(jié)果監(jiān)督只能解決 66.4%。過程監(jiān)督提供了更精確的反饋,指出了錯(cuò)誤發(fā)生的具體位置,有助于模型更好地進(jìn)行信用分配和學(xué)習(xí)。

2)大型獎(jiǎng)勵(lì)模型可以有效地近似人類監(jiān)督

研究發(fā)現(xiàn),大型獎(jiǎng)勵(lì)模型可以有效地近似人類監(jiān)督,用于訓(xùn)練小型獎(jiǎng)勵(lì)模型,從而降低了數(shù)據(jù)收集的成本。這為大規(guī)模數(shù)據(jù)收集消融實(shí)驗(yàn)提供了可能性,并可以用于評估不同監(jiān)督方法的效果。

3)激活學(xué)習(xí)提高了過程監(jiān)督的數(shù)據(jù)效率

研究發(fā)現(xiàn),激活學(xué)習(xí)可以將過程監(jiān)督的數(shù)據(jù)效率提高 2.6 倍,這意味著可以使用更少的數(shù)據(jù)獲得更好的模型性能。激活學(xué)習(xí)通過選擇最有價(jià)值的模型輸出進(jìn)行人工標(biāo)注,從而提高了數(shù)據(jù)收集的效率。

4)發(fā)布了 PRM800K 數(shù)據(jù)集

論文發(fā)布了 PRM800K 數(shù)據(jù)集,包含 800,000 個(gè)步驟級別的標(biāo)注數(shù)據(jù),用于訓(xùn)練獎(jiǎng)勵(lì)模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1)主要原理

STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型產(chǎn)生合理推理過程(Rationales) 的能力,并將 Rationales 融入到訓(xùn)練過程內(nèi),讓模型學(xué)會(huì)進(jìn)行推理。其基本流程如下:

推理:起始數(shù)據(jù)集僅有 [Question, Answer] ,首先利用一些帶有推理過程的 Few-Shot Examples 來 Prompt 模型對于數(shù)據(jù)集中的問題生成對應(yīng)的推理過程和答案。

過濾:如果生成的答案正確,則將推理過程加入到原有的數(shù)據(jù)集中;如果生成的答案錯(cuò)誤,則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集,構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集 [Question, Rationale, Answer ] 進(jìn)行微調(diào)。

迭代:重復(fù)這一過程,且每次獲得一個(gè)新的數(shù)據(jù)集,都從原始的模型開始進(jìn)行 Fine-tune 從而防止過擬合。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

2)創(chuàng)新點(diǎn)

迭代引導(dǎo):STaR 不需要構(gòu)建大規(guī)模的推理鏈數(shù)據(jù)集,而是通過少量示例引導(dǎo) LLM 生成自身的推理鏈,實(shí)現(xiàn)自我提升。

Rationalization 技術(shù):STaR 引入了 Rationalization 技術(shù),通過提供正確答案作為提示,幫助 LLM 生成新的推理鏈,克服了正向推理訓(xùn)練的局限性,能夠從失敗案例中學(xué)習(xí)。

3)STaR 的優(yōu)勢

提升推理能力:STaR 能夠有效提升 LLM 在數(shù)學(xué)推理、常識推理等復(fù)雜任務(wù)上的性能。

降低數(shù)據(jù)需求:STaR 不需要大規(guī)模的推理鏈數(shù)據(jù)集,降低了數(shù)據(jù)獲取的難度和成本。

提高魯棒性:STaR 能夠讓 LLM 從失敗案例中學(xué)習(xí),提高其在復(fù)雜問題上的魯棒性。

4)STaR 的局限性

初始模型要求:STaR 需要初始模型具有一定的推理能力,否則難以啟動(dòng)引導(dǎo)過程。

對少樣本示例的依賴:STaR在推理任務(wù)中高度依賴少量的Few-Shot推理示例,這導(dǎo)致模型的推理能力較為有限,難以應(yīng)對復(fù)雜和廣泛的任務(wù)。

泛化能力受限:STaR雖然能夠通過迭代的方式提升模型的推理能力,但其應(yīng)用主要局限于特定的結(jié)構(gòu)化任務(wù)(如問題回答),難以在開放域或任意文本生成任務(wù)中取得同樣的效果。

數(shù)據(jù)質(zhì)量影響:STaR 的性能受初始推理鏈質(zhì)量的影響,如果初始推理鏈存在偏差,則可能導(dǎo)致 STaR 學(xué)習(xí)到錯(cuò)誤的推理模式。

解釋忠實(shí)度:STaR 生成的推理鏈可能無法完全反映 LLM 的內(nèi)部推理過程,存在解釋忠實(shí)度的問題。

5)STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的相似之處

迭代更新:STaR 和強(qiáng)化學(xué)習(xí)都采用迭代的方式更新模型,不斷優(yōu)化其性能。

獎(jiǎng)勵(lì)信號:STaR 通過迭代的方式生成推理鏈,并使用正確答案作為反饋信號,類似于強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號,用于指導(dǎo)模型的更新方向。

6)STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的區(qū)別

目標(biāo)函數(shù):STaR 的目標(biāo)函數(shù)與強(qiáng)化學(xué)習(xí)中的策略梯度目標(biāo)不完全相同,STaR 更關(guān)注推理鏈的生成和優(yōu)化。

模型結(jié)構(gòu):STaR 使用預(yù)訓(xùn)練的 LLM 模型,而強(qiáng)化學(xué)習(xí)可以采用各種類型的模型。

訓(xùn)練方法:STaR 使用基于梯度的方法進(jìn)行模型更新,而強(qiáng)化學(xué)習(xí)可以采用多種訓(xùn)練方法,例如 Q-learning、Sarsa 等。

3.4 微軟的 rStar:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1)主要貢獻(xiàn)

rStar 是一種創(chuàng)新的self-play自我推理方法,旨在提升小語言模型 (SLM) 的推理能力,無需微調(diào)或高級模型的支持。其核心思想是將推理過程分解為 生成 和 鑒別 兩個(gè)階段,并通過自我博弈的方式實(shí)現(xiàn) SLM 之間的相互學(xué)習(xí)。

2)主要?jiǎng)?chuàng)新點(diǎn)

豐富的推理動(dòng)作:rStar 引入了五種人類似推理動(dòng)作,模擬人類在推理過程中的行為,這使得 SLM 能夠生成更高質(zhì)量的候選推理軌跡,有效探索解決方案空間。

相互一致性鑒別:rStar 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器,對生成的候選推理軌跡進(jìn)行評估。鑒別器通過完成部分推理步驟并提供反饋,幫助目標(biāo) SLM 選擇更可靠的推理路徑。

無需微調(diào)或高級模型:rStar 不依賴于微調(diào)或高級模型的指導(dǎo),能夠獨(dú)立提升 SLM 的推理能力,使其在無需額外資源的情況下獲得顯著的性能提升。

實(shí)驗(yàn)結(jié)果表明,rStar 能夠有效解決多種推理問題,并在多個(gè) SLM 上取得了顯著的性能提升。例如,在 GSM8K 數(shù)據(jù)集上,rStar 將 LLaMA2-7B 的準(zhǔn)確率從 12.51% 提升至 63.91%,將 Mistral-7B 的準(zhǔn)確率從 36.46% 提升至 81.88%。

A. 生成階段 (MCTS Rollout):

動(dòng)作空間: rStar 引入了五種人類似推理動(dòng)作,模擬人類在推理過程中的行為:

A1: 提出一個(gè)一步思考。

A2: 提出剩余的思考步驟。

A3: 提出下一個(gè)子問題及其答案。

A4: 再次回答子問題。

A5: 重述問題/子問題。

獎(jiǎng)勵(lì)函數(shù): 設(shè)計(jì) SLM 定制獎(jiǎng)勵(lì)函數(shù),根據(jù)推理步驟對最終答案的貢獻(xiàn)程度進(jìn)行評估,并指導(dǎo) MCTS 樹的擴(kuò)展。

這些動(dòng)作幫助模型更好地探索解決方案空間的原因:

多樣性: 豐富的動(dòng)作類型使得模型可以嘗試不同的推理策略,避免陷入固定的思維模式。

靈活性: 模型可以根據(jù)當(dāng)前狀態(tài)選擇合適的動(dòng)作,靈活應(yīng)對不同的問題。

分解: 通過將復(fù)雜問題分解為子問題,模型可以逐步解決,降低推理難度。

驗(yàn)證: 通過重新回答子問題,模型可以驗(yàn)證子問題的答案是否正確,提高推理的準(zhǔn)確性。

B. 鑒別階段 (Mutual Consistency):

鑒別器 SLM: 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器,對生成的候選推理軌跡進(jìn)行評估。

部分提示: 將候選推理軌跡的一部分作為提示,讓鑒別器完成剩余的推理步驟。

一致性驗(yàn)證: 比較鑒別器完成的推理步驟與原始軌跡的一致性,選擇相互一致的軌跡作為最終答案。

互一致性幫助模型選擇正確的推理軌跡的原因:

外部驗(yàn)證: 鑒別器作為外部評估者,為模型提供客觀的反饋,避免模型自身評估的偏差。

降低難度: 通過部分提示,降低鑒別器推理的難度,提高其提供正確答案的概率。

群體智慧: 兩個(gè) SLM 之間的相互驗(yàn)證,類似于人類群體中的同伴互評,可以更有效地識別正確答案。

C. 最終軌跡選擇:

最終得分計(jì)算: 將候選軌跡的獎(jiǎng)勵(lì)值與終端節(jié)點(diǎn)的置信度得分相乘,計(jì)算最終得分。

選擇最佳軌跡: 選擇最終得分最高的軌跡作為最終答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1)貢獻(xiàn)1

將 STaR 推廣到學(xué)習(xí)推理,也是其與 STaR 的主要區(qū)別。STaR 主要針對特定任務(wù)進(jìn)行推理學(xué)習(xí),而 Quiet-STaR 則將推理學(xué)習(xí)推廣到更廣泛的文本數(shù)據(jù)中。這使得語言模型能夠在更通用的場景下進(jìn)行推理,并從多樣化的文本任務(wù)中學(xué)習(xí)。

2)貢獻(xiàn)2:并行采樣算法

這是實(shí)現(xiàn) Quiet-STaR 的關(guān)鍵技術(shù)之一。并行采樣算法能夠高效地生成每個(gè) token 的推理,從而使得模型能夠從大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)推理。

3)其他創(chuàng)新點(diǎn)

元 token、混合頭、非短視損失函數(shù)等創(chuàng)新點(diǎn)都是為了更好地實(shí)現(xiàn) Quiet-STaR 的目標(biāo),即讓語言模型能夠?qū)W習(xí)推理并提高其預(yù)測能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

針對現(xiàn)有 LLM 推理能力有限的不足,提出了以下創(chuàng)新方法和策略:

1)創(chuàng)新方法

PRM 驗(yàn)證器和樹搜索算法:通過訓(xùn)練一個(gè)過程獎(jiǎng)勵(lì)模型來評估每一步的正確性,并利用樹搜索算法(如束搜索和前瞻搜索)在解決方案空間中進(jìn)行搜索,找到最優(yōu)答案。

迭代修訂模型:通過微調(diào) LLM,使其能夠迭代地修改其初始答案,使其逐漸接近正確答案。

2)創(chuàng)新策略

推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略:根據(jù)提示的難度動(dòng)態(tài)選擇最佳的推理時(shí)計(jì)算策略,以最大化性能提升。

計(jì)算預(yù)算交換:將推理時(shí)計(jì)算和預(yù)訓(xùn)練計(jì)算進(jìn)行比較,發(fā)現(xiàn)對于簡單和中等的推理任務(wù),推理時(shí)計(jì)算可以有效地替代額外的預(yù)訓(xùn)練計(jì)算,從而降低預(yù)訓(xùn)練成本。

3)改進(jìn)

性能提升:在相同的計(jì)算預(yù)算下,使用“推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略”可以顯著提升 LLM 的性能,并優(yōu)于傳統(tǒng)的最佳-of-N 策略。

預(yù)訓(xùn)練成本降低:對于簡單和中等的推理任務(wù),可以使用推理時(shí)計(jì)算來替代額外的預(yù)訓(xùn)練計(jì)算,從而降低預(yù)訓(xùn)練成本。

模型泛化能力提升:通過迭代修訂模型,LLM 可以學(xué)習(xí)從錯(cuò)誤中吸取教訓(xùn),并改進(jìn)其推理能力,從而提升模型的泛化能力。

Google在研究中提到了從簡單到復(fù)雜的三種方案,直接在多個(gè)答案中選最佳解的方法(Best of N),在思維鏈中每步都提供多個(gè)候選項(xiàng)的方法(Beam Search)和把后續(xù)多個(gè)步驟聯(lián)系起來看的MCTS方法的簡化版本Lookahead Search。

我們可以嘗試著在推理階段不要求模型一次做對的能力,而是讓LLM去嘗試一題多解, 然后針對多個(gè)答案進(jìn)行評估打分, 最終輸出一個(gè)正確的答案. 在答案評估的時(shí)候,同時(shí)引入對過程的評估,即Process-based Reward Model(PRM)。搜索方法上, 它采用了Lookahead Search, 本質(zhì)上是MCTS的一種特殊形式.

4. 可能的“逆向工程”

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

下面是關(guān)于這張架構(gòu)圖的詳細(xì)說明,主要包括四個(gè)階段:

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成模塊負(fù)責(zé)創(chuàng)建用于訓(xùn)練的數(shù)據(jù),包括:

合成數(shù)據(jù)生成器(Synthetic Data Generator)、人類專家、CoT數(shù)據(jù)庫(CoT Dataset,鏈?zhǔn)剿季S數(shù)據(jù)庫)、現(xiàn)實(shí)世界和沙盒數(shù)據(jù)

這些數(shù)據(jù)被匯集起來,形成訓(xùn)練數(shù)據(jù),用于后續(xù)模型的訓(xùn)練階段。

4.2 訓(xùn)練階段

訓(xùn)練階段主要由以下幾個(gè)模塊組成:

語言模型,這是核心的AI模型,負(fù)責(zé)處理和理解語言數(shù)據(jù)。

RL環(huán)境,強(qiáng)化學(xué)習(xí)環(huán)境用于模型優(yōu)化。

獎(jiǎng)勵(lì)函數(shù),包括驗(yàn)證(Verification)和人類反饋(Human labeling),用來指導(dǎo)模型學(xué)習(xí)。

策略優(yōu)化器(Policy Optimizer),包括梯度壓縮、Panzar系統(tǒng)、探索與利用等,用于優(yōu)化模型策略。在這個(gè)階段,模型通過強(qiáng)化學(xué)習(xí)和高級技術(shù)進(jìn)行訓(xùn)練,不斷優(yōu)化性能和效率。

4.3 推理階段

推理階段包括:

訓(xùn)練好的模型,這是通過強(qiáng)化學(xué)習(xí)和高級技術(shù)優(yōu)化后的模型。

多任務(wù)生成,處理多個(gè)任務(wù)的能力。

最終響應(yīng),生成最終的輸出結(jié)果。

CoT生成和微調(diào),根據(jù)鏈?zhǔn)剿季S生成并微調(diào)結(jié)果。

效率監(jiān)控:實(shí)時(shí)監(jiān)控模型的性能。

4.4 關(guān)鍵注釋

大規(guī)模CoT存儲(chǔ)進(jìn)入RL環(huán)境是作者自己的假設(shè),作者認(rèn)為OpenAI可能會(huì)使用從現(xiàn)實(shí)世界中生成的大量鏈?zhǔn)剿季S來進(jìn)一步調(diào)整和優(yōu)化RL模型。舉例說明:假設(shè)你是一名研究員,想要構(gòu)建一個(gè)能夠進(jìn)行多任務(wù)處理的AI系統(tǒng)。

我們可以通過參考這個(gè)o1架構(gòu)按照上面三個(gè)模塊進(jìn)行以下工作:

1)首先,收集并生成各種類型的數(shù)據(jù),包括合成數(shù)據(jù)、人類專家提供的數(shù)據(jù)以及現(xiàn)實(shí)世界的數(shù)據(jù)。

2)接著,利用這些數(shù)據(jù)訓(xùn)練你的語言模型,并在強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行優(yōu)化,通過獎(jiǎng)勵(lì)函數(shù)和策略優(yōu)化器不斷提升模型性能。

3)最后,將訓(xùn)練好的模型部署到推理階段,使其能夠處理多任務(wù)并生成最終響應(yīng),同時(shí)監(jiān)控其效率并進(jìn)行必要的微調(diào)。這種架構(gòu)不僅適用于語言處理,還可以擴(kuò)展到其他領(lǐng)域,如圖像識別、游戲開發(fā)等,通過不斷優(yōu)化強(qiáng)化學(xué)習(xí)過程,使得AI系統(tǒng)更加智能高效。

四、幕后:o1背后的團(tuán)隊(duì)

在 OpenAI 公布的o1模型的參與人員中,不僅包括前首席科學(xué)家Ilya Sutskever,COT 作者 Jason Wei,還包含了Jiayi Weng等大量華人科學(xué)家。

在o1 的21個(gè)Foundational貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化、國際化等特點(diǎn)。

學(xué)術(shù)背景:14人擁有博士學(xué)位,3人以本科學(xué)位進(jìn)入OpenAI,1人有?平(jīng)歷,5人有斯坦福背景;

國家背景:團(tuán)隊(duì)來自至少8個(gè)國家,包括美國、中國、印度、韓國、意大利、土耳其、以色列、波蘭,呈現(xiàn)出了高度的國際化。其中以色列2人。

華人貢獻(xiàn):作為人數(shù)最多的國家之一,6個(gè)華人本科分別來自清華、北大、劍橋、哈佛、達(dá)特茅斯。從某種程度上來說,OpenAI 在AI技術(shù)上的領(lǐng)先離不開華人的貢獻(xiàn)。

工作背景:作為OpenAI最主要的競爭對手,貢獻(xiàn)者中11人有 Google 背景,5人沒有相關(guān)名企經(jīng)驗(yàn);

注:2人未找到相關(guān)資料。

21個(gè)Foundational貢獻(xiàn)者資料明細(xì)

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

五、相關(guān)名詞解釋1. MCTS

1.1 概念:蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)是一種用于某些類型決策過程的啟發(fā)式搜索算法,特別是在雙人零和游戲中。它結(jié)合了蒙特卡洛模擬的隨機(jī)抽樣和決策樹搜索的系統(tǒng)性。MCTS在計(jì)算博弈論和人工智能領(lǐng)域中非常有用,尤其是在圍棋、國際象棋和其他策略游戲中。

1.2 MCTS的基本步驟

1)選擇:從根節(jié)點(diǎn)開始,按照特定的策略,選擇最有前途的子節(jié)點(diǎn),直到到達(dá)一個(gè)尚未完全展開(即還有未探索的行動(dòng))的節(jié)點(diǎn)。

2)擴(kuò)展:在選擇的節(jié)點(diǎn)上添加一個(gè)或多個(gè)子節(jié)點(diǎn),這些子節(jié)點(diǎn)代表了可能的下一步行動(dòng)。這涉及到游戲狀態(tài)的更新,將游戲向前推進(jìn)到一個(gè)新的狀態(tài)。

3)模擬:從新添加的節(jié)點(diǎn)開始,進(jìn)行蒙特卡洛模擬,直到游戲結(jié)束或達(dá)到預(yù)定的模擬深度。這個(gè)過程不需要完美信息,可以使用隨機(jī)策略來選擇行動(dòng)。

4)反向傳播:將模擬的結(jié)果(比如輸贏或得分)更新到所訪問路徑上的所有節(jié)點(diǎn)。如果模擬結(jié)果是勝利,則增加沿途節(jié)點(diǎn)的勝利次數(shù);如果是失敗,則相應(yīng)地更新失敗的統(tǒng)計(jì)數(shù)據(jù)。

1.3 關(guān)鍵特點(diǎn)

1)自適應(yīng)搜索:MCTS能夠根據(jù)之前的搜索結(jié)果自適應(yīng)地搜索那些更有希望的區(qū)域。

2)無啟發(fā)式:與某些其他搜索算法不同,MCTS不需要領(lǐng)域特定的啟發(fā)式評估函數(shù)。

3)并行化:模擬步驟可以獨(dú)立進(jìn)行,因此MCTS很容易并行化,這使得它在多核處理器上特別有效。

全網(wǎng)最全 OpenAI o1 萬字綜述:創(chuàng)新、原理和團(tuán)隊(duì)

1.4 Beam Search、Lookahead Search、MCTS對比

Beam Search:一種啟發(fā)式的圖搜索算法,常用于機(jī)器翻譯、語音識別等領(lǐng)域的解碼過程。它在每一步都從當(dāng)前節(jié)點(diǎn)擴(kuò)展出一定數(shù)量(beam width)的最有前途的子節(jié)點(diǎn),而不是搜索所有可能的子節(jié)點(diǎn),從而減少了搜索空間。

Beam Search的優(yōu)點(diǎn)是計(jì)算效率高,但缺點(diǎn)是可能會(huì)錯(cuò)過一些不那么顯而易見但最終可能更優(yōu)的路徑。

Lookahead Search:一種在Beam Search基礎(chǔ)上的擴(kuò)展,它在搜索時(shí)不僅考慮當(dāng)前步驟的最優(yōu)解,還會(huì)向前看多步,考慮未來的可能性。這種搜索策略可以幫助算法做出更長遠(yuǎn)的決策,但計(jì)算成本也會(huì)隨之增加。

Lookahead Search的關(guān)鍵在于它嘗試預(yù)測并評估不同的決策路徑,從而選擇最優(yōu)的行動(dòng)方案。

MCTS:一種用于某些類型決策過程的啟發(fā)式搜索算法,它結(jié)合了隨機(jī)模擬和決策樹搜索。MCTS通過多次模擬來評估不同的決策路徑,并根據(jù)這些模擬的結(jié)果來選擇最優(yōu)的行動(dòng)。

MCTS特別適用于雙人零和游戲,如圍棋、國際象棋等,它通過構(gòu)建整個(gè)樹來探索所有可能的行動(dòng)路徑,并通過模擬來評估這些路徑。

2. Bootstrap

這是一種重采樣技術(shù),用于從原始數(shù)據(jù)集中生成新的樣本集,以此來估計(jì)一個(gè)統(tǒng)計(jì)量(如均值、方差等)的分布。通過這種方法,可以不需要對總體分布做出任何假設(shè),就能夠估計(jì)出模型參數(shù)的不確定性和穩(wěn)定性。

Bootstrap方法的步驟通常包括:從原始數(shù)據(jù)集中隨機(jī)抽取樣本,允許重復(fù)抽樣(即有放回抽樣);根據(jù)抽取的樣本計(jì)算所需的統(tǒng)計(jì)量;重復(fù)上述過程多次(通常是數(shù)千次),以獲得統(tǒng)計(jì)量的分布;使用這個(gè)分布來估計(jì)原始統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差、置信區(qū)間或其他特征。

在機(jī)器學(xué)習(xí)領(lǐng)域,Bootstrap方法可以用來提高模型的泛化能力和魯棒性。例如,通過Bootstrap抽樣可以創(chuàng)建多個(gè)不同的訓(xùn)練集,然后用這些訓(xùn)練集來訓(xùn)練多個(gè)模型。這些模型可以結(jié)合起來,形成一個(gè)集成模型,如隨機(jī)森林或Bagging模型,以此來減少過擬合和提高模型的預(yù)測準(zhǔn)確性。

3. PPO

PPO(Proximal Policy Optimization,近端策略優(yōu)化)是一種在強(qiáng)化學(xué)習(xí)領(lǐng)域廣泛使用的算法,它屬于策略梯度方法的一種。PPO算法的核心思想是在每次更新策略時(shí),限制新策略與舊策略之間的差異,以保持訓(xùn)練過程的穩(wěn)定性。

PPO算法有兩個(gè)主要變體:PPO-Penalty和PPO-Clip。PPO-Penalty通過在目標(biāo)函數(shù)中添加一個(gè)懲罰項(xiàng)來近似解決一個(gè)KL散度約束的更新問題,而PPO-Clip則不直接使用KL散度項(xiàng),而是通過目標(biāo)函數(shù)中的裁剪操作來限制新舊策略之間的差異。

PPO算法的實(shí)現(xiàn)步驟通常包括:

1)初始化策略網(wǎng)絡(luò)參數(shù)。

2)通過與環(huán)境交互收集數(shù)據(jù)。

3)計(jì)算優(yōu)勢函數(shù),用于評價(jià)動(dòng)作的好壞。

4)使用裁剪的目標(biāo)函數(shù)或懲罰項(xiàng)來更新策略網(wǎng)絡(luò)參數(shù)。

5)重復(fù)以上步驟,直到策略收斂。

PPO算法的優(yōu)點(diǎn)包括穩(wěn)定性、適用性和可擴(kuò)展性。它適用于離散和連續(xù)動(dòng)作空間的環(huán)境,并且可以通過并行化來提高訓(xùn)練效率。PPO算法在游戲、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域都有廣泛的應(yīng)用。

4. 激活學(xué)習(xí)

激活學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其核心思想是選擇最有價(jià)值的數(shù)據(jù)進(jìn)行標(biāo)注和學(xué)習(xí),從而提高學(xué)習(xí)效率和模型性能。

通常用于以下場景:數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)集規(guī)模龐大、模型性能提升空間有限。

包括以下幾個(gè)步驟:選擇標(biāo)注策略、選擇標(biāo)注數(shù)據(jù)、標(biāo)注數(shù)據(jù)、訓(xùn)練模型、迭代優(yōu)化。

在許多領(lǐng)域都有廣泛應(yīng)用,例如圖像識別、自然語言處理、推薦系統(tǒng)。

參考資料:

Open AI官網(wǎng):

OpenAI o1、核心成員官推:OpenAI 官推、CEO Sam Altman、總裁&聯(lián)創(chuàng)Greg Brockman、COT 作者Jason Wei、模型核心成員Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

公眾號:海外獨(dú)角獸、 FudanNLP、機(jī)器之心、 量子位、數(shù)字生命卡茲克、 AI Pioneer、 AI產(chǎn)品黃叔、人工智能與算法學(xué)習(xí)、AINLP、科技新聞、 GitChat、AI科技大本營、智能涌現(xiàn)、PaperWeekly、硅谷科技評論、卜寒兮AI、zartbot、投資實(shí)習(xí)所、AI的潛意識、夕小瑤科技說

本文由 @AIPM1001 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲(chǔ)空間服務(wù)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港