當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 18:57:41 瀏覽：3199次

導(dǎo)讀：前段時(shí)間 OpenAI 發(fā)布了針對復(fù)雜推理問題的大模型o1，也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注，但基本上都是關(guān)于使用和測評的。這篇文章，我們就來看看，o1模型的背后，其創(chuàng)新、原理分別是什么。 60s速讀簡介：o1是OpenAI 9月12日發(fā)布的針對復(fù)...

前段時(shí)間 OpenAI 發(fā)布了針對復(fù)雜推理問題的大模型o1，也就是草莓模型。這款大模型一經(jīng)發(fā)布就引起巨大的關(guān)注，但基本上都是關(guān)于使用和測評的。這篇文章，我們就來看看，o1模型的背后，其創(chuàng)新、原理分別是什么。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

60s速讀

簡介：o1是OpenAI 9月12日發(fā)布的針對復(fù)雜推理問題的全新大模型，也就是Sam一直說的“草莓”。該模型在回答問題之前能夠進(jìn)行更長時(shí)間的“思考”，且思考時(shí)間越長，推理質(zhì)量越高。

原理：基于強(qiáng)化學(xué)習(xí)的內(nèi)化思維鏈學(xué)習(xí)，通過思維鏈?zhǔn)降膯栴}拆解，模型可以不斷驗(yàn)證和糾錯(cuò)。

表現(xiàn)：o1模型在編程、數(shù)學(xué)、物理和化學(xué)博士級問題等任務(wù)上提升顯著，但在寫作等任務(wù)上表現(xiàn)不如GPT4o。

構(gòu)成：o1系列包括o1、o1-preview和o1-mini。o1暫未公開，o1-preiview 付費(fèi)用戶和API用戶已經(jīng)可以使用。o1-mini 速度更快、性價(jià)比更高。

影響：新的Scaling Laws已經(jīng)出現(xiàn)。

Ilya 一句話概括強(qiáng)化學(xué)習(xí)：讓 AI 用隨機(jī)的路徑嘗試新的任務(wù)，如果效果超預(yù)期，那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得 AI 記住多使用這個(gè)成功的事件，再開始下一次的嘗試。

Self-play：本質(zhì)是利用 AI 無限的計(jì)算能力來補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

Critic Model：通過將推理過程進(jìn)行過程分解，并且利用額外的更強(qiáng)更專項(xiàng)的Critic Model，可以將推理過程的監(jiān)督擴(kuò)展到更復(fù)雜的問題上。

技術(shù)路線猜想：1. MCTS搜索；2. PRM僅在答案不可接受時(shí)進(jìn)行MCTS搜索，或者用的是更節(jié)約的Beam Search；3. 迭代式的Bootstrap模型產(chǎn)生合理推理的能力，并將 Rationales 融入到訓(xùn)練過程內(nèi)，讓模型學(xué)會(huì)進(jìn)行推理，類似于STaR的擴(kuò)展版本。

逆向工程：由合成數(shù)據(jù)生成器、獎(jiǎng)勵(lì)函數(shù)、策略優(yōu)化器等模塊構(gòu)成。

相關(guān)論文：Let’s Verify Step by Step、STaR、rStar、Quiet-STaR。

團(tuán)隊(duì)：o1 的21個(gè) Foundational 貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化的特點(diǎn)：華人占比6/21，博士為主，但也有人有�？平�(jīng)歷。

Github o1相關(guān)資料匯總：https://github.com/hijkzzz/Awesome-LLM-Strawberry

一、背景：OpenAI為什么現(xiàn)在發(fā)布新模型o1？

雖然OpenAI 2024年年化營收預(yù)計(jì)將從前一年的20億美元大幅增長至約35億美元，但仍無法覆蓋其90億的推理、訓(xùn)練成本。

目前來說，OpenAI訂閱的商業(yè)模式很難稱得上是一個(gè)好的變現(xiàn)手段，更無法與廣告這一互聯(lián)網(wǎng)時(shí)代最佳商業(yè)模式相提并論。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（OpenAI營收變化趨勢，來源：tooltester）

在營收構(gòu)成上，C端用戶訂閱、企業(yè)用戶、API和ChatGPT Team業(yè)務(wù)分別占營收的55%、21%、15%和8%。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（OpenAI營收構(gòu)成，來源：tooltester）

據(jù)The Information測算，在一年虧損50億美元的情況下，OpenAI的現(xiàn)金流可能在未來一年內(nèi)耗荊因此，繼續(xù)融資成為了OpenAI必然的選擇。據(jù)彭博社消息，OpenAI目前正在商談以1500億美元的估值融資65億，這一估值遠(yuǎn)高于去年10月時(shí)的860億美元。

除此之外，首席科學(xué)家Ilya等核心人才出走，流量增長放緩，Sora“期貨”遲遲未兌現(xiàn)，GPT-5不停跳票，大語言模型預(yù)訓(xùn)練Scaling Law的邊際效益遞減，增長空間被質(zhì)疑……在OpenAI發(fā)布o(jì)1模型之前，由ChatGPT發(fā)布引領(lǐng)的大模型革命陷入了前所未有的低谷。

與此同時(shí)，OpenAI的主要競爭對手之一Anthropic ，從落后于 OpenAI 18 個(gè)月，在o1發(fā)布前已經(jīng)在模型層面追平，甚至有微弱的領(lǐng)先優(yōu)勢了。Anthropic 6月發(fā)布的 Claude-3.5-Sonnet ，支持寫200行可靠的代碼，遠(yuǎn)超4o的20 行。

如下圖所示，OpenAI自2022年11月ChatGPT發(fā)布以來的流量增長已經(jīng)幾乎停滯。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（ChatGPT訪問量變化趨勢，來源：tooltester）

與此相對應(yīng)的，一二級市場的AI熱潮正在持續(xù)降溫。

一級市場方面，VC資金對AI初創(chuàng)公司投資占比在持續(xù)上升，占比接近30%，但是在金額上已經(jīng)回落到2020年的水平，降幅明顯。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（VC對AI初創(chuàng)公司的投資金額和占比，來源：硅谷科技評論）

二級市場上，投資者的AI抱團(tuán)追漲行情開始有了瓦解的跡象，以英偉達(dá)等公司為代表的美股AGIX指數(shù)從高點(diǎn)開始回落，幾乎回到了半年前的水平。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（AGI指數(shù)，來源：海外獨(dú)角獸）

在這樣的背景下，通過全新的大模型o1給投資人“畫餅”成為了OpenAI絕佳的選擇。

二、現(xiàn)象：o1模型的超強(qiáng)推理能力1. OpenAI的模型迭代史

作為OpenAI在2023年GPT4發(fā)布以來最重要的模型更新，o1在數(shù)學(xué)、代碼等方面推理能力顯著提升。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（OpenAI的主要大模型及其發(fā)布時(shí)間，來源：tooltester）

2. 數(shù)據(jù)：o1在STEM領(lǐng)域表現(xiàn)出色，特別是在數(shù)學(xué)和編程方面

2.1 數(shù)學(xué)方面，在2024年的AIME（一個(gè)旨在挑戰(zhàn)美國最聰明高中生的考試）測評中，GPT-4o只解決了13%的問題，o1的得分是83%。

2.2 編碼方面，GPT-4o在競爭性編程問題(Codeforces)上的得分是11%，o1 是89%。

2.3 在博士級別的科學(xué)問題(GPQA Diamond)，GPT4o是56.1%，o1則超越人類博士69.7%，達(dá)到了恐怖的78%。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（o1與gpt4o的對比，來源：OpenAI官網(wǎng)）

2.4 在啟用視覺感知功能時(shí)，多模態(tài)o1在MMMU上得分為78.2%，成為第一個(gè)與人類專家競爭的模型。在博士級別的科學(xué)問題上，特別是物理和化學(xué)領(lǐng)域，o1更是大幅領(lǐng)先人類博士。

2.5 在IOI（國際信息學(xué)奧林匹克競賽）中在每題 50 次提交的條件下取得了第 49%/213分。在每題10,000次提交的情況下，該模型的得分達(dá)到了362，超過了金牌門檻。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（o1與gpt4o的對比，來源：OpenAI官網(wǎng)）

2.6 安全性

衡量安全性的一種方法是測試模型在用戶試圖繞過安全規(guī)則時(shí)（稱為“越獄”）是否繼續(xù)遵守這些規(guī)則。在最困難的越獄測試中，GPT-4o 得分為 22/100，而o1-preview 模型得分為 84/100。

2.7 不足

通用人工智能的核心是通用和泛化性，但o1在寫作、文字編輯等一些簡單的自然語言處理任務(wù)上并沒有顯著提升，這意味著o1的適用范圍有一定的局限性。

3. 創(chuàng)新：self-play RL+內(nèi)化COT

作為首個(gè)通過大規(guī)模強(qiáng)化學(xué)習(xí)算法訓(xùn)練的模型，o1能夠在回答之前深入思考問題。o1不再需要由用戶輸入復(fù)雜的COT提示詞，而是通過強(qiáng)化學(xué)習(xí)的方式，將思維鏈內(nèi)化之后進(jìn)行持續(xù)訓(xùn)練。

通過思維鏈?zhǔn)降膯栴}拆解，模型可以不斷驗(yàn)證、糾錯(cuò)，嘗試新的方法，這一過程顯著提升了模型的推理能力。

o1的性能隨著更多的強(qiáng)化學(xué)習(xí)（訓(xùn)練時(shí)間計(jì)算）和更多的思考時(shí)間（測試時(shí)間計(jì)算）而持續(xù)提高。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（o1 性能隨著訓(xùn)練時(shí)間和測試時(shí)間計(jì)算而平穩(wěn)提升，來源：OpenAI官網(wǎng)）

通過強(qiáng)化學(xué)習(xí)+內(nèi)化思維鏈的方式，o1不僅在量化的推理指標(biāo)上有了顯著提升，在定性的推理可解釋性上也有了明顯的改善�？尚诺乃季S鏈?zhǔn)鼓Ｐ妥兊每山忉�，讓用戶可以用簡單的英語“讀懂模型的思維。

內(nèi)化的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì)。假設(shè)它是忠實(shí)且清晰的，內(nèi)化的思維鏈允許OpenAI“讀取”模型的思考過程。未來OpenAI可能希望監(jiān)控思維鏈?zhǔn)欠裼胁倏赜脩舻嫩E象。為了實(shí)現(xiàn)這一目標(biāo)，模型必須能夠以未經(jīng)修改的形式表達(dá)其思想，因此OpenAI不能在思維鏈上訓(xùn)練任何政策合規(guī)性或用戶偏好。

4. 通俗的理解：系統(tǒng)1與系統(tǒng)2

可以這樣理解，模型進(jìn)行的是系統(tǒng)1思維，而思維鏈則解鎖了系統(tǒng)2思維。

眾所周知，通過提示模型“逐步思考”可以提升大模型的性能。而通過強(qiáng)化學(xué)習(xí)訓(xùn)練，逐步拆解問題并從頭到尾持續(xù)試錯(cuò)，將會(huì)進(jìn)一步大幅提升大模型的性能。正如我們之前在圍棋方面的AlphGo以及其它游戲方面的算法模型上所看到的。

系統(tǒng)1與系統(tǒng)2來自諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾卡尼曼的《思考，快與慢》，其核心觀點(diǎn)包括：

系統(tǒng) 1：快速、直觀、自動(dòng)的思維方式。

這種思維模式通常是無意識的，依賴于直覺和經(jīng)驗(yàn)，能迅速做出反應(yīng)。例如，看到一個(gè)熟悉的面孔時(shí)，我們幾乎無需思考便能認(rèn)出它。

系統(tǒng) 2：慢速、深思熟慮、邏輯性的思維方式。

這種思維模式需要有意識的努力和思考，用于解決復(fù)雜問題或做出深思熟慮的決策。例如，解決數(shù)學(xué)題或計(jì)劃長期目標(biāo)時(shí)，我們會(huì)調(diào)動(dòng)系統(tǒng) 2 的思維。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（系統(tǒng)1與系統(tǒng)2的對比，來源：簡書）

5. 案例

案例網(wǎng)上很多，這里只簡單提下“草莓”這個(gè)最經(jīng)典的案例。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

草莓的梗最初是因?yàn)槿藗儨y試GPT系列的時(shí)候，發(fā)現(xiàn)了模型無法數(shù)對草莓這個(gè)單詞里面的r的數(shù)量。而OpenAI的新模型可以通過self-play的方式提升模型Reasoning的能力，從而數(shù)對r的數(shù)量。于是這個(gè)名叫草莓的模型就開始在網(wǎng)上不斷發(fā)酵，并在Sam各種有意無意的暗示中升溫。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

6. 業(yè)界關(guān)于o1模型的正負(fù)面觀點(diǎn)

6.1 正面觀點(diǎn)

Jason Wei，OpenAI研究員，COT作者：

“通過將復(fù)雜步驟分解為更簡單的步驟、識別和糾正錯(cuò)誤，以及嘗試不同的方法，o1 的表現(xiàn)完全令人驚嘆，游戲規(guī)則已經(jīng)被徹底重新定義。”

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

楊植麟，Kimi創(chuàng)始人：

“規(guī)模定律之后，大模型發(fā)展的下一個(gè)范式是強(qiáng)化學(xué)習(xí)。對于通用智能AGI來講，可能會(huì)有三個(gè)層面：最底層是規(guī)�；桑@是第一個(gè)層次的創(chuàng)新機(jī)會(huì)，它被OpenAI發(fā)現(xiàn)，并且做到極致。第二個(gè)層次的創(chuàng)新機(jī)會(huì)，就是Scaling law框架下有一些問題沒有解決，比如怎么把所有的模態(tài)用統(tǒng)一的表示放到同一個(gè)模型里面去？這是第二個(gè)層次的挑戰(zhàn)。第三層次的問題，比如能夠去做更長的上下文，能夠有更強(qiáng)的 reasoning 或者 instruction-following 。

決定這一代AI技術(shù)的上限，核心是文本模型能力的上限，如果文本模型能持續(xù)提升智商，就能做越來越復(fù)雜的任務(wù)。AI產(chǎn)品的能力由模型能力的決定，這和互聯(lián)網(wǎng)時(shí)代有本質(zhì)不同，模型能力不強(qiáng)，產(chǎn)品體驗(yàn)就不會(huì)好。AI時(shí)代的超級應(yīng)用，大概率會(huì)是一個(gè)AI助理。這一代AI最大的變量，還是在生產(chǎn)力端�，F(xiàn)在社會(huì)里面每一單位的生產(chǎn)力可能都會(huì)有十倍提升的機(jī)會(huì)。”

肖仰華，復(fù)旦計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博導(dǎo)：

“o1模型的出現(xiàn)意味著大模型的推理能力完全能夠達(dá)到專家級水平，算得上是人工智能里程碑式的進(jìn)展，將給模型在企業(yè)端的應(yīng)用帶來極大的提升。但隨著模型在知性、感性和理性三方面的能力均不斷提升后，其將超越人類的能力，未來人工智能將對人類產(chǎn)生何種影響還很難預(yù)測，人工智能的發(fā)展速度現(xiàn)在超過了人類對其認(rèn)知的速度，人工智能治理將是一個(gè)巨大挑戰(zhàn)。

大規(guī)模強(qiáng)化學(xué)習(xí)算法教會(huì)模型如何在訓(xùn)練過程中有效使用其思維鏈進(jìn)行思考，o1模型可以在回應(yīng)用戶之前產(chǎn)生一個(gè)很長的內(nèi)部思維鏈。以前的大語言模型更像一個(gè)文科生，距離理科生的水平仍然較遠(yuǎn)。但人類智能的核心能力是思考和思維，OpenAI新推理模型o1系列將人的思維過程展現(xiàn)出來。

我們發(fā)現(xiàn)o1的表現(xiàn)超過了一些人類專家，成為第一個(gè)在這個(gè)基準(zhǔn)上做到這一點(diǎn)的模型。這些結(jié)果并不意味著o1在所有方面都比博士更有能力，只是模型在解決博士需要解決的一些問題方面更熟練。人類目前對人工智能基本認(rèn)知框架都有所欠缺，這是一個(gè)巨大的治理挑戰(zhàn)，就業(yè)、經(jīng)濟(jì)、倫理、社會(huì)關(guān)系等話題將引起廣泛討論。”

6.2 負(fù)面觀點(diǎn)

復(fù)旦NLP實(shí)驗(yàn)室：

“博士級”模型GPT-o1折戟中學(xué)數(shù)學(xué)“陷阱”問題，準(zhǔn)確率僅為24.3%

我們的最新研究結(jié)果卻給這個(gè)”AI天才”潑了一盆冷水在面對中學(xué)數(shù)學(xué)水平的”陷阱”問題時(shí)，GPT-o1慘遭滑鐵盧：在我們最新的中學(xué)陷阱問題測試集MathTrap_Public上，調(diào)用GPT-o1-preview官方API后生成的回答準(zhǔn)確率僅為24.3% 。

我們在 GSM8K 和 MATH 數(shù)據(jù)集問題的基礎(chǔ)上，加入了一些“陷阱”，構(gòu)造了 MathTrap 數(shù)據(jù)集。這些改編后的題目很多時(shí)候沒有定義明確的答案或者無解，只有能夠同時(shí)理解原題和“陷阱”所涉及知識的模型，才能找出其中的矛盾點(diǎn)，發(fā)現(xiàn)“陷阱”所在。

因此，單靠“刷榜”來提高在 GSM8K 和 MATH 上的成績，是沒辦法在 MathTrap 上取得好成績的，因?yàn)檫@些模型缺乏質(zhì)疑題目條件的能力。

相關(guān)研究：Exploring the Compositional Deficiency of Large Language Models in Mathematical Reasoning Through Trap Problems

7. 如何使用

7.1 ChatGPT付費(fèi)用戶

ChatGPT Plus和Team用戶從9月12日可以開始在ChatGPT中訪問o1模型。o1-preview和o1-mini可以在模型選擇器中手動(dòng)選擇，o1-preview的每周消息限制為50條，o1-mini 為每天50條。ChatGPT Enterprise 和 Edu 用戶將在下周開始訪問這兩個(gè)模型。

符合 API 使用等級 5 的開發(fā)者可以立即開始在 API 中使用這兩個(gè)模型，限制為每分鐘 20 次請求。OpenAI還計(jì)劃將 o1-mini 的訪問權(quán)限擴(kuò)展到所有 ChatGPT 免費(fèi)用戶。

7.2 非ChatGPT付費(fèi)用戶

Cursor已經(jīng)支持了最新的o1模型，沒有ChatGPT會(huì)員權(quán)限的可以通過這個(gè)產(chǎn)品進(jìn)行體驗(yàn)。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

8. 影響和意義

8.1 對大模型行業(yè)的影響

新的Scaling Laws Post-Training Scaling Laws（后訓(xùn)練擴(kuò)展定律）已經(jīng)出現(xiàn)，并可能引發(fā)行業(yè)對于算力分配、后訓(xùn)練能力的重新思考。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

o1 模型的發(fā)布，意味著 AI 能力的提升不再局限于預(yù)訓(xùn)練階段，還可以通過在 Post-Training 階段中提升 RL 訓(xùn)練的探索時(shí)間和增加模型推理思考時(shí)間來實(shí)現(xiàn)性能提升，即 Post-Training Scaling Laws。

數(shù)據(jù)飛輪 + Bootstrap -> SuperIntelligence : 基于自我反思的模型將能夠?qū)崿F(xiàn)自舉 Bootstrap，并提升大大提升模型對于未見過的復(fù)雜問題的解決能力，模型的推理過程形成大量高質(zhì)量數(shù)據(jù)的飛輪，并最終有可能向 SuperIntelligence 更進(jìn)一步。

8.2 AI能力的等級躍遷

AI開始具備推理能力，且復(fù)雜問題的解決能力可以與人類相媲美，這意味著AI從僅能利用工具和規(guī)則的 Level 1 水平開始進(jìn)化到了 Level 2 的階段，并向第3階段開始探索。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（5 Levels Of AI Agents，來源：cobusgreyling）

8.3 對從業(yè)人員的影響

1）AI產(chǎn)品經(jīng)理的危與機(jī)

危：一方面，隨著o1將思維鏈內(nèi)化進(jìn)模型，大幅降低了提示詞工程的難度。這意味著AI產(chǎn)品經(jīng)理未來大概率不再需要設(shè)計(jì)復(fù)雜的提示詞，剛剛興起1年多的“提示詞工程師”崗位風(fēng)雨飄搖，AI產(chǎn)品經(jīng)理也同樣將因此受到很大的沖擊。

之前解決復(fù)雜問題，需要人寫非常復(fù)雜的Prompt，而o1本質(zhì)上是COT等復(fù)雜Prompt的自動(dòng)化，所以之后是不需要用戶自己構(gòu)造復(fù)雜Prompt的。

機(jī)：另一方面，隨著o1代碼能力的大幅提升，代碼編寫的門檻得到了一定程度的降低，AI產(chǎn)品經(jīng)理有機(jī)會(huì)設(shè)計(jì)、開發(fā)、上線一條龍完成，大大提升AI產(chǎn)品MVP迭代的效率。

2）工程

雖然AI取代工程開發(fā)還言之尚早，但大模型在短時(shí)間內(nèi)的進(jìn)步之大還是讓人震驚，初級開發(fā)的門檻與AI越來越模糊。也許在不遠(yuǎn)的將來，英文就將成為最流行的編程語言。

而短期來說，工程開發(fā)的效率有望借助o1模型和Cursor等工具產(chǎn)品進(jìn)一步提升。

3）算法

雖然強(qiáng)化學(xué)習(xí)算法在InstructGPT的論文中就已經(jīng)被提及，但之前更多是作為RLHF基于人類反饋的強(qiáng)化學(xué)習(xí)的視角進(jìn)行切入，很少作為單獨(dú)的方向被重點(diǎn)提出。

o1模型發(fā)布后，強(qiáng)化學(xué)習(xí)的重要性大大提高，其在大模型領(lǐng)域的應(yīng)用有望成為接下來一段時(shí)間國內(nèi)大模型公司混戰(zhàn)的新焦點(diǎn)。

三、背后：技術(shù)原理與相關(guān)論文1. 基礎(chǔ)知識

1.1 強(qiáng)化學(xué)習(xí)

機(jī)器學(xué)習(xí)算法主要分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三類。無監(jiān)督學(xué)習(xí)相當(dāng)于學(xué)生自學(xué)，沒有任何老師指導(dǎo)，完全依靠學(xué)生自己琢磨；監(jiān)督學(xué)習(xí)相當(dāng)于有老師指導(dǎo)，有明確對錯(cuò)的學(xué)習(xí)；強(qiáng)化學(xué)習(xí)則是做對題目有獎(jiǎng)勵(lì)，做錯(cuò)題目有懲罰的學(xué)習(xí)。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）是一種基于反饋的學(xué)習(xí)方法，對算法執(zhí)行的正確和不正確行為分別進(jìn)行獎(jiǎng)勵(lì)和懲罰的制度，目的是使算法獲得最大的累積獎(jiǎng)勵(lì)，從而學(xué)會(huì)在特定環(huán)境下做出最佳決策。“強(qiáng)化”一詞來自于心理學(xué)，心理學(xué)中的“強(qiáng)化”就是通過提供一種刺激手段來建立或者鼓勵(lì)一種行為模式。這種“強(qiáng)化”具體分為兩種：

積極強(qiáng)化，是指在預(yù)期行為呈現(xiàn)后，通過給予激勵(lì)刺激以增加進(jìn)一步導(dǎo)致積極反應(yīng)。

負(fù)面強(qiáng)化，通過提供適當(dāng)?shù)拇碳頊p少出現(xiàn)負(fù)面(不希望的)反應(yīng)的可能性，從而糾正不希望出現(xiàn)的行為。

想象一下，當(dāng)你第一次自己玩超級馬里奧，你需要在游戲中不斷探索環(huán)境和重要的NPC，一個(gè)錯(cuò)誤的舉動(dòng)會(huì)導(dǎo)致失去一條“命”，一個(gè)正確的跳躍可以把我們帶到一個(gè)更安全的地方獲得金幣獎(jiǎng)勵(lì)！在n次獎(jiǎng)勵(lì)和懲罰的探索之后，你對于馬里奧游戲的熟練程度越來越高，操作的正確性大大提升，最終成為一個(gè)該游戲的高手。

1.2 Self-play

Self-play 是 AlphaZero 等強(qiáng)化學(xué)習(xí)算法的合成數(shù)據(jù)方法，最早可以追溯到 1992 年的 TD-Gammon 算法，其本質(zhì)是利用 AI 無限的計(jì)算能力來補(bǔ)足它數(shù)據(jù)利用效率不夠的短板。

以 AlphaZero 為例，在每一局對弈中，模型使用蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）來選擇動(dòng)作。MCTS 結(jié)合了當(dāng)前神經(jīng)網(wǎng)絡(luò)提供的策略（policy）和價(jià)值（value），從而在每個(gè)游戲狀態(tài)下評估出最優(yōu)的行動(dòng)。其具體步驟如下：

1) 隨機(jī)初始化：模型從完全隨機(jī)初始化的狀態(tài)開始，沒有任何人類先驗(yàn)知識。

2) self-play：模型自己與自己進(jìn)行對弈，生成大量的游戲數(shù)據(jù)。其中好的結(jié)果用于更新模型的參數(shù)。

3) MCTS：在每一次對弈中，AlphaZero 會(huì)使用 MCTS 來搜索最佳動(dòng)作。MCTS 使用策略網(wǎng)絡(luò) （policy network）提供的動(dòng)作概率分布和價(jià)值網(wǎng)絡(luò)提供的局面評估結(jié)果來引導(dǎo)搜索。

4) 策略更新：根據(jù)自我對弈的結(jié)果，使用強(qiáng)化學(xué)習(xí)的方式來更新神經(jīng)網(wǎng)絡(luò)的參數(shù)，使得模型逐步學(xué)習(xí)到更優(yōu)的策略

1.3 Self-play強(qiáng)化學(xué)習(xí)、RLHF

早在2018 年，Ilya Sutskever就認(rèn)為強(qiáng)化學(xué)習(xí)與 self-play 是通往 AGI 路上最關(guān)鍵的方法之一。Ilya 用一句話概括了強(qiáng)化學(xué)習(xí)：讓 AI 用隨機(jī)的路徑嘗試新的任務(wù)，如果效果超預(yù)期，那就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得 AI 記住多使用這個(gè)成功的事件，再開始下一次的嘗試。

1）傳統(tǒng)強(qiáng)化學(xué)習(xí)與self-play的區(qū)別：傳統(tǒng)強(qiáng)化學(xué)習(xí)與今天的 self-play 強(qiáng)化學(xué)習(xí)相比，最大的區(qū)別是強(qiáng)化學(xué)習(xí)算法模型（如AlphaZero）是一個(gè)千萬參數(shù)的神經(jīng)網(wǎng)絡(luò)，和今天的語言模型相差 3-4 個(gè)數(shù)量級。

2）Self-play 強(qiáng)化學(xué)習(xí)與RLHF 的區(qū)別：RLHF 的目的不是獲取機(jī)器智能，而是人機(jī)對齊，使得 AI 能夠更像人，但不能超越人成為超級智能。簡單來說：RLHF 像人類一樣，更喜歡好理解的東西，而不是喜歡邏輯更嚴(yán)密的內(nèi)容。而 self-play 強(qiáng)化學(xué)習(xí)的目標(biāo)是如何提升邏輯能力，絕對強(qiáng)度更高，甚至超越最強(qiáng)人類、專家。

3）RLHF 的核心是通過強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型，但由于缺乏獎(jiǎng)勵(lì)函數(shù)這一必要因素，因此需要通過收集人類的反饋來學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)。

4）強(qiáng)化學(xué)習(xí)不是一個(gè)模型，而是一整套的系統(tǒng)，其中包含了很多因素，第一，強(qiáng)化學(xué)習(xí)包括了智能體，其中的 agent 就是模型。第二，包括了環(huán)境，環(huán)境可能是狗主人的家，也可能是編程環(huán)境，也可能是垂直領(lǐng)域。第三，包括了動(dòng)作，是狗坐下，還是一些其他模態(tài)的輸出。第四，包括了獎(jiǎng)勵(lì)模型，這也很重要。最重要的兩個(gè)因素是環(huán)境和智能體。智能體的目標(biāo)是得到更多獎(jiǎng)勵(lì)。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（強(qiáng)化學(xué)習(xí)構(gòu)成，來源：海外獨(dú)角獸）

強(qiáng)化學(xué)習(xí)在語言模型中的思路，本質(zhì)上是 inference time 換 training time 。

1.4 為什么 RLHF 的效果優(yōu)于 SFT？

PPO 算法的提出者是Berkeley PhD，OpenAI前研究員 John Schulman，他針對 RLHF PPO 提出了兩個(gè)觀點(diǎn)：

第一，SFT 會(huì)導(dǎo)致 hallucination ：

John Schulman 認(rèn)為，大型模型之所以會(huì)產(chǎn)生幻覺，是因?yàn)樗鼈冊?SFT 階段學(xué)到了一些不正確的認(rèn)知。SFT 過強(qiáng)的監(jiān)督信號導(dǎo)致人類實(shí)際上在引導(dǎo) ChatGPT 說它不知道的東西。還有一種可能性，即 GPT 實(shí)際上知道答案，但標(biāo)注人員不知道。

第二，RLHF 讓大模型“知道”自己“確實(shí)不知道”。

RLHF 的過程不僅幫助模型意識到不確定性，更重要的事情是 RLHF 幫助模型提高了 reasoning 能力。

只有通過正向和反向的雙重實(shí)驗(yàn)，我們才可以判斷這種藥物對頭痛有效。如果只有正向的例子，例如說患者吃了感冒藥，感冒變好了，并不能證明感冒藥能治好感冒。只能說明，感冒藥與患者感冒的好轉(zhuǎn)有一定相關(guān)性。而 RLHF 正是成功利用了負(fù)向數(shù)據(jù)，使得模型有機(jī)會(huì)真正掌握因果性。

總結(jié)來說，RLHF 有以下優(yōu)勢：

使用 negative signal 進(jìn)行對比學(xué)習(xí)，通過對比的過程可以幫助模型降低 halluciation。

強(qiáng)化學(xué)習(xí)不是一個(gè)固定的過程。它允許模型隨著能力的不斷提升，通過不斷地問問題、給出答案、評判，從而讓模型不停地從當(dāng)前能力的邊界進(jìn)行主動(dòng)探索，并不斷拓寬自己的能力邊界。

這兩個(gè)因素共同作用能夠形成 counter-factual reasoning 的作用，有可能解鎖因果學(xué)習(xí)（casual learning）的巨大潛力，讓模型具備更強(qiáng)的 reasoning 能力。

1.5 PRM與ORM

PRM（Process reward model）是獎(jiǎng)勵(lì)好的推理步驟，而不僅僅是正確的結(jié)果。這更接近人類的學(xué)習(xí)和推理方式，實(shí)現(xiàn)方式常常是用 COT 來表示推理過程，對每一步進(jìn)行打分。這是因?yàn)?LLM 的語義理解能力才成為可能的。在傳統(tǒng) RL 中，我們按照最終結(jié)果評分，其評分模型稱為 ORM（outcome reward model）；而通過專門訓(xùn)練 LLM 成為 process verifier ，新的評分模型叫做 PRM，往往是使較小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓(xùn)練的 PRM 在解決 MATH 數(shù)據(jù)集測試集中 78.2%的問題時(shí)表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到，PRM 在過程中一旦成功發(fā)現(xiàn)第一個(gè)錯(cuò)誤，就能使 RL 訓(xùn)練效果顯著提升。

1.6 Critic Model

隨著任務(wù)復(fù)雜度的提高，僅僅依靠模型的自身推理能力可能無法提供有效的獎(jiǎng)勵(lì)信號。這使得對于模型內(nèi)部的復(fù)雜推理過程的監(jiān)督變成了一個(gè)可擴(kuò)展監(jiān)督問題。

具體來說，o1的隱式思維鏈的訓(xùn)練過程中應(yīng)當(dāng)也引入了Critic的方法。通過將推理過程進(jìn)行過程分解，并且利用額外的更強(qiáng)更專項(xiàng)的Critic Model，可以將推理過程的監(jiān)督擴(kuò)展到更復(fù)雜的問題上。這也一定程度緩解了僅僅是通過推理過程能否導(dǎo)出正確結(jié)果的來確定獎(jiǎng)勵(lì)信號的稀疏問題。

OpenAI的CriticGPT通過RLHF方法訓(xùn)練模型能夠?yàn)檎鎸?shí)世界中的代碼任務(wù)書寫自然語言反饋，并成功泛化到OOD（模型在訓(xùn)練過程中沒有遇到過的數(shù)據(jù)）的分布上。這種反饋可以用來幫助人類進(jìn)行更準(zhǔn)確的評價(jià)，從而實(shí)現(xiàn)對于復(fù)雜輸出的有效獎(jiǎng)勵(lì)反潰

2. 關(guān)于技術(shù)原理的猜想

2.1 OpenAI官方的“提示”

通過強(qiáng)化學(xué)習(xí)，o1 學(xué)會(huì)了精煉其思維鏈并優(yōu)化所用的策略。它學(xué)會(huì)了識別并糾正錯(cuò)誤，將復(fù)雜的步驟分解為更簡單的部分，并在當(dāng)前方法無效時(shí)嘗試不同的途徑。這一過程顯著提升了模型的推理能力。

o1 模型引入了推理標(biāo)記。模型使用這些推理標(biāo)記進(jìn)行“思考”，分解對提示的理解并考慮多種生成響應(yīng)的方法。生成推理標(biāo)記后，模型會(huì)將答案生成為可見的完成標(biāo)記，并從其上下文中丟棄推理標(biāo)記。

以下是用戶與助手之間多步驟對話的示例。每個(gè)步驟的輸入和輸出標(biāo)記都會(huì)被保留，而推理標(biāo)記則會(huì)被丟棄。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

（推理是如何進(jìn)行的，OpenAI官網(wǎng)）

2.2 猜想1

張俊林：MCTS搜索技術(shù)路線

OpenAI o1提到了關(guān)于RL在訓(xùn)練和推理時(shí)候的Scaling law，并指出這與預(yù)訓(xùn)練時(shí)候的Scaling law具有不同特性。很明顯，如果o1走的是MCTS搜索技術(shù)路線，那么把COT拆分的越細(xì)（增加搜索樹的深度），或提出更多的可能選擇（節(jié)點(diǎn)的分支增多，就是說樹的寬度越寬），則搜索空間越大，找到好COT路徑可能性越大，效果越好，而訓(xùn)練和推理的時(shí)候需要算力肯定越大�？瓷先ビ兄ЧS著算力增長而增長的態(tài)勢，也就是所謂的RL的Scaling law。這其實(shí)是樹搜索本來應(yīng)有之義，我倒覺得把這個(gè)稱為RL的Scaling law有點(diǎn)名不副實(shí)。

2.3 猜想2

科技新聞周小燕郝博陽：PRM僅在答案不可接受時(shí)進(jìn)行MCTS式的搜索，或者用的是更節(jié)約的Beam Search。

從反應(yīng)時(shí)間和token消耗兩方面看，根據(jù)Hackernews上使用了API的開發(fā)者推算，o1進(jìn)行推理所消耗的token是其給出答案token的10倍，是未進(jìn)行思維鏈的GPT-4o mini 所用token的60-100倍。如果采用能看三步的、每步形成5個(gè)候選，單層深度的Lookahead Search就會(huì)消耗45倍token。但用到了思維鏈每步都需要進(jìn)行一次Lookahead Search的話，就會(huì)遠(yuǎn)超100倍token。另外考慮到MCTS這么大的計(jì)算量，目前o1的反饋時(shí)間是遠(yuǎn)遠(yuǎn)不夠的。

但如果僅用思維鏈，即使是非常復(fù)雜的問題，token消耗最多也就是達(dá)到5-10倍。其60倍token消耗又太大了。

2.4 猜想3

北大對齊團(tuán)隊(duì)：o1運(yùn)用的技術(shù)關(guān)鍵還是在于強(qiáng)化學(xué)習(xí)的搜索與學(xué)習(xí)機(jī)制，基于LLM已有的推理能力，迭代式的Bootstrap模型產(chǎn)生合理推理（Rationales)的能力，并將 Rationales 融入到訓(xùn)練過程內(nèi)，讓模型學(xué)會(huì)進(jìn)行推理，而后再運(yùn)用足夠強(qiáng)大的計(jì)算量實(shí)現(xiàn)Post-Training階段的Scaling。類似于STaR的擴(kuò)展版本。

模型學(xué)習(xí)的是產(chǎn)生合理推理的過程，MCTS 在其中的作用是誘導(dǎo)合理推理過程的產(chǎn)生或構(gòu)建相應(yīng)的偏序?qū)π纬杉?xì)粒度獎(jiǎng)勵(lì)信號，而非直接搜索過程和最終答案。

為了優(yōu)化這一過程，產(chǎn)生了一系列方法，其中包括在 Token 級別或子句級別提供獎(jiǎng)勵(lì)信號，幫助模型調(diào)整生成的回答。這些方法如MCTS，將輸出建模為一系列節(jié)點(diǎn)，這些節(jié)點(diǎn)可以是 Token 級別或句子級別。例如：

Token 級別的節(jié)點(diǎn)：每個(gè)節(jié)點(diǎn)對應(yīng)生成序列中的一個(gè) Token。通過 MCTS，模型可以探索不同的 Token 序列，最終生成更連貫的響應(yīng)。

句子級別的節(jié)點(diǎn)：在復(fù)雜推理任務(wù)中，每個(gè)節(jié)點(diǎn)可以代表一個(gè)完整的句子或推理步驟，幫助模型更好地處理多步推理任務(wù)。

3. 相關(guān)論文

3.1 Jason Wei 的 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models，也就是著名的COT。

主要內(nèi)容：通過一系列中間推理步驟，能顯著提高大型語言模型執(zhí)行復(fù)雜推理的能力，提出了一種名為“chain of thought prompting”的方法，通過提供幾個(gè)思維鏈條示例，無需對模型進(jìn)行微調(diào)，就能自然地激發(fā)大型語言模型的推理能力，實(shí)驗(yàn)結(jié)果表明該方法在算術(shù)、常識和符號推理任務(wù)上顯著提高了三種大型語言模型的表現(xiàn)。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

鏈?zhǔn)剿季S推理能力的涌現(xiàn)：鏈?zhǔn)剿季S推理能力并非所有模型都具備，而是隨著模型規(guī)模的擴(kuò)大而逐漸涌現(xiàn)。對于需要多步推理的任務(wù)，鏈?zhǔn)剿季S提示能夠顯著提升模型性能，尤其是在大型語言模型上表現(xiàn)尤為突出。

該方法也為提升模型可解釋性和魯棒性提供了新的思路。

CoT 通過分步推理的方式，要求模型在生成最終答案之前，先生成一系列中間推理步驟。這種 “思考鏈” 的生成過程有助于增強(qiáng)模型的推理能力，尤其在數(shù)學(xué)和代碼生成等任務(wù)中表現(xiàn)出色。

然而，CoT雖然能夠生成中間步驟，但并未教會(huì)模型如何從內(nèi)部深入思考問題的關(guān)聯(lián)。特別是對于尤其復(fù)雜且需要多步推理規(guī)劃的任務(wù)，這樣的合理的中間 CoT 推理過程（Rationales) 更為重要。

3.2 Ilya等人的Let’s Verify Step by Step

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

主要內(nèi)容：比較了兩種訓(xùn)練大型語言模型進(jìn)行復(fù)雜推理的方法：結(jié)果監(jiān)督和過程監(jiān)督，并得出以下主要貢獻(xiàn)：

1）過程監(jiān)督比結(jié)果監(jiān)督更有效

研究表明，過程監(jiān)督訓(xùn)練出的獎(jiǎng)勵(lì)模型比結(jié)果監(jiān)督更可靠，能夠解決 MATH 數(shù)據(jù)集 78.2% 的問題，而結(jié)果監(jiān)督只能解決 66.4%。過程監(jiān)督提供了更精確的反饋，指出了錯(cuò)誤發(fā)生的具體位置，有助于模型更好地進(jìn)行信用分配和學(xué)習(xí)。

2）大型獎(jiǎng)勵(lì)模型可以有效地近似人類監(jiān)督

研究發(fā)現(xiàn)，大型獎(jiǎng)勵(lì)模型可以有效地近似人類監(jiān)督，用于訓(xùn)練小型獎(jiǎng)勵(lì)模型，從而降低了數(shù)據(jù)收集的成本。這為大規(guī)模數(shù)據(jù)收集消融實(shí)驗(yàn)提供了可能性，并可以用于評估不同監(jiān)督方法的效果。

3）激活學(xué)習(xí)提高了過程監(jiān)督的數(shù)據(jù)效率

研究發(fā)現(xiàn)，激活學(xué)習(xí)可以將過程監(jiān)督的數(shù)據(jù)效率提高 2.6 倍，這意味著可以使用更少的數(shù)據(jù)獲得更好的模型性能。激活學(xué)習(xí)通過選擇最有價(jià)值的模型輸出進(jìn)行人工標(biāo)注，從而提高了數(shù)據(jù)收集的效率。

4）發(fā)布了 PRM800K 數(shù)據(jù)集

論文發(fā)布了 PRM800K 數(shù)據(jù)集，包含 800,000 個(gè)步驟級別的標(biāo)注數(shù)據(jù)，用于訓(xùn)練獎(jiǎng)勵(lì)模型。

3.3 斯坦福&谷歌STaR: Bootstrapping Reasoning with Reasoning

1）主要原理

STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的 Bootstrap 模型產(chǎn)生合理推理過程（Rationales) 的能力，并將 Rationales 融入到訓(xùn)練過程內(nèi)，讓模型學(xué)會(huì)進(jìn)行推理。其基本流程如下：

推理：起始數(shù)據(jù)集僅有 [Question, Answer] ，首先利用一些帶有推理過程的 Few-Shot Examples 來 Prompt 模型對于數(shù)據(jù)集中的問題生成對應(yīng)的推理過程和答案。

過濾：如果生成的答案正確，則將推理過程加入到原有的數(shù)據(jù)集中；如果生成的答案錯(cuò)誤，則嘗試在給出正確答案的前提下再次生成推理過程。將最終生成正確答案的推理收集，構(gòu)建一個(gè)構(gòu)建一個(gè)微調(diào)數(shù)據(jù)集 [Question, Rationale, Answer ] 進(jìn)行微調(diào)。

迭代：重復(fù)這一過程，且每次獲得一個(gè)新的數(shù)據(jù)集，都從原始的模型開始進(jìn)行 Fine-tune 從而防止過擬合。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

2）創(chuàng)新點(diǎn)

迭代引導(dǎo)：STaR 不需要構(gòu)建大規(guī)模的推理鏈數(shù)據(jù)集，而是通過少量示例引導(dǎo) LLM 生成自身的推理鏈，實(shí)現(xiàn)自我提升。

Rationalization 技術(shù)：STaR 引入了 Rationalization 技術(shù)，通過提供正確答案作為提示，幫助 LLM 生成新的推理鏈，克服了正向推理訓(xùn)練的局限性，能夠從失敗案例中學(xué)習(xí)。

3）STaR 的優(yōu)勢

提升推理能力：STaR 能夠有效提升 LLM 在數(shù)學(xué)推理、常識推理等復(fù)雜任務(wù)上的性能。

降低數(shù)據(jù)需求：STaR 不需要大規(guī)模的推理鏈數(shù)據(jù)集，降低了數(shù)據(jù)獲取的難度和成本。

提高魯棒性：STaR 能夠讓 LLM 從失敗案例中學(xué)習(xí)，提高其在復(fù)雜問題上的魯棒性。

4）STaR 的局限性

初始模型要求：STaR 需要初始模型具有一定的推理能力，否則難以啟動(dòng)引導(dǎo)過程。

對少樣本示例的依賴：STaR在推理任務(wù)中高度依賴少量的Few-Shot推理示例，這導(dǎo)致模型的推理能力較為有限，難以應(yīng)對復(fù)雜和廣泛的任務(wù)。

泛化能力受限：STaR雖然能夠通過迭代的方式提升模型的推理能力，但其應(yīng)用主要局限于特定的結(jié)構(gòu)化任務(wù)（如問題回答），難以在開放域或任意文本生成任務(wù)中取得同樣的效果。

數(shù)據(jù)質(zhì)量影響：STaR 的性能受初始推理鏈質(zhì)量的影響，如果初始推理鏈存在偏差，則可能導(dǎo)致 STaR 學(xué)習(xí)到錯(cuò)誤的推理模式。

解釋忠實(shí)度：STaR 生成的推理鏈可能無法完全反映 LLM 的內(nèi)部推理過程，存在解釋忠實(shí)度的問題。

5）STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的相似之處

迭代更新：STaR 和強(qiáng)化學(xué)習(xí)都采用迭代的方式更新模型，不斷優(yōu)化其性能。

獎(jiǎng)勵(lì)信號：STaR 通過迭代的方式生成推理鏈，并使用正確答案作為反饋信號，類似于強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)信號，用于指導(dǎo)模型的更新方向。

6）STaR 與強(qiáng)化學(xué)習(xí)目標(biāo)的區(qū)別

目標(biāo)函數(shù)：STaR 的目標(biāo)函數(shù)與強(qiáng)化學(xué)習(xí)中的策略梯度目標(biāo)不完全相同，STaR 更關(guān)注推理鏈的生成和優(yōu)化。

模型結(jié)構(gòu)：STaR 使用預(yù)訓(xùn)練的 LLM 模型，而強(qiáng)化學(xué)習(xí)可以采用各種類型的模型。

訓(xùn)練方法：STaR 使用基于梯度的方法進(jìn)行模型更新，而強(qiáng)化學(xué)習(xí)可以采用多種訓(xùn)練方法，例如 Q-learning、Sarsa 等。

3.4 微軟的 rStar：Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

1）主要貢獻(xiàn)

rStar 是一種創(chuàng)新的self-play自我推理方法，旨在提升小語言模型 (SLM) 的推理能力，無需微調(diào)或高級模型的支持。其核心思想是將推理過程分解為生成和鑒別兩個(gè)階段，并通過自我博弈的方式實(shí)現(xiàn) SLM 之間的相互學(xué)習(xí)。

2）主要?jiǎng)?chuàng)新點(diǎn)

豐富的推理動(dòng)作：rStar 引入了五種人類似推理動(dòng)作，模擬人類在推理過程中的行為，這使得 SLM 能夠生成更高質(zhì)量的候選推理軌跡，有效探索解決方案空間。

相互一致性鑒別：rStar 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器，對生成的候選推理軌跡進(jìn)行評估。鑒別器通過完成部分推理步驟并提供反饋，幫助目標(biāo) SLM 選擇更可靠的推理路徑。

無需微調(diào)或高級模型：rStar 不依賴于微調(diào)或高級模型的指導(dǎo)，能夠獨(dú)立提升 SLM 的推理能力，使其在無需額外資源的情況下獲得顯著的性能提升。

實(shí)驗(yàn)結(jié)果表明，rStar 能夠有效解決多種推理問題，并在多個(gè) SLM 上取得了顯著的性能提升。例如，在 GSM8K 數(shù)據(jù)集上，rStar 將 LLaMA2-7B 的準(zhǔn)確率從 12.51% 提升至 63.91%，將 Mistral-7B 的準(zhǔn)確率從 36.46% 提升至 81.88%。

A. 生成階段 (MCTS Rollout):

動(dòng)作空間: rStar 引入了五種人類似推理動(dòng)作，模擬人類在推理過程中的行為：

A1: 提出一個(gè)一步思考。

A2: 提出剩余的思考步驟。

A3: 提出下一個(gè)子問題及其答案。

A4: 再次回答子問題。

A5: 重述問題/子問題。

獎(jiǎng)勵(lì)函數(shù): 設(shè)計(jì) SLM 定制獎(jiǎng)勵(lì)函數(shù)，根據(jù)推理步驟對最終答案的貢獻(xiàn)程度進(jìn)行評估，并指導(dǎo) MCTS 樹的擴(kuò)展。

這些動(dòng)作幫助模型更好地探索解決方案空間的原因：

多樣性: 豐富的動(dòng)作類型使得模型可以嘗試不同的推理策略，避免陷入固定的思維模式。

靈活性: 模型可以根據(jù)當(dāng)前狀態(tài)選擇合適的動(dòng)作，靈活應(yīng)對不同的問題。

分解: 通過將復(fù)雜問題分解為子問題，模型可以逐步解決，降低推理難度。

驗(yàn)證: 通過重新回答子問題，模型可以驗(yàn)證子問題的答案是否正確，提高推理的準(zhǔn)確性。

B. 鑒別階段 (Mutual Consistency):

鑒別器 SLM: 使用另一個(gè)與目標(biāo) SLM 能力相似的 SLM 作為鑒別器，對生成的候選推理軌跡進(jìn)行評估。

部分提示: 將候選推理軌跡的一部分作為提示，讓鑒別器完成剩余的推理步驟。

一致性驗(yàn)證: 比較鑒別器完成的推理步驟與原始軌跡的一致性，選擇相互一致的軌跡作為最終答案。

互一致性幫助模型選擇正確的推理軌跡的原因：

外部驗(yàn)證: 鑒別器作為外部評估者，為模型提供客觀的反饋，避免模型自身評估的偏差。

降低難度: 通過部分提示，降低鑒別器推理的難度，提高其提供正確答案的概率。

群體智慧: 兩個(gè) SLM 之間的相互驗(yàn)證，類似于人類群體中的同伴互評，可以更有效地識別正確答案。

C. 最終軌跡選擇:

最終得分計(jì)算: 將候選軌跡的獎(jiǎng)勵(lì)值與終端節(jié)點(diǎn)的置信度得分相乘，計(jì)算最終得分。

選擇最佳軌跡: 選擇最終得分最高的軌跡作為最終答案。

3.5 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

1）貢獻(xiàn)1

將 STaR 推廣到學(xué)習(xí)推理，也是其與 STaR 的主要區(qū)別。STaR 主要針對特定任務(wù)進(jìn)行推理學(xué)習(xí)，而 Quiet-STaR 則將推理學(xué)習(xí)推廣到更廣泛的文本數(shù)據(jù)中。這使得語言模型能夠在更通用的場景下進(jìn)行推理，并從多樣化的文本任務(wù)中學(xué)習(xí)。

2）貢獻(xiàn)2：并行采樣算法

這是實(shí)現(xiàn) Quiet-STaR 的關(guān)鍵技術(shù)之一。并行采樣算法能夠高效地生成每個(gè) token 的推理，從而使得模型能夠從大規(guī)模文本數(shù)據(jù)中學(xué)習(xí)推理。

3）其他創(chuàng)新點(diǎn)

元 token、混合頭、非短視損失函數(shù)等創(chuàng)新點(diǎn)都是為了更好地實(shí)現(xiàn) Quiet-STaR 的目標(biāo)，即讓語言模型能夠?qū)W習(xí)推理并提高其預(yù)測能力。

3.6 Google Deep Mind 的Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

針對現(xiàn)有 LLM 推理能力有限的不足，提出了以下創(chuàng)新方法和策略：

1）創(chuàng)新方法

PRM 驗(yàn)證器和樹搜索算法：通過訓(xùn)練一個(gè)過程獎(jiǎng)勵(lì)模型來評估每一步的正確性，并利用樹搜索算法（如束搜索和前瞻搜索）在解決方案空間中進(jìn)行搜索，找到最優(yōu)答案。

迭代修訂模型：通過微調(diào) LLM，使其能夠迭代地修改其初始答案，使其逐漸接近正確答案。

2）創(chuàng)新策略

推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略：根據(jù)提示的難度動(dòng)態(tài)選擇最佳的推理時(shí)計(jì)算策略，以最大化性能提升。

計(jì)算預(yù)算交換：將推理時(shí)計(jì)算和預(yù)訓(xùn)練計(jì)算進(jìn)行比較，發(fā)現(xiàn)對于簡單和中等的推理任務(wù)，推理時(shí)計(jì)算可以有效地替代額外的預(yù)訓(xùn)練計(jì)算，從而降低預(yù)訓(xùn)練成本。

3）改進(jìn)

性能提升：在相同的計(jì)算預(yù)算下，使用“推理時(shí)計(jì)算最優(yōu)擴(kuò)展策略”可以顯著提升 LLM 的性能，并優(yōu)于傳統(tǒng)的最佳-of-N 策略。

預(yù)訓(xùn)練成本降低：對于簡單和中等的推理任務(wù)，可以使用推理時(shí)計(jì)算來替代額外的預(yù)訓(xùn)練計(jì)算，從而降低預(yù)訓(xùn)練成本。

模型泛化能力提升：通過迭代修訂模型，LLM 可以學(xué)習(xí)從錯(cuò)誤中吸取教訓(xùn)，并改進(jìn)其推理能力，從而提升模型的泛化能力。

Google在研究中提到了從簡單到復(fù)雜的三種方案，直接在多個(gè)答案中選最佳解的方法（Best of N），在思維鏈中每步都提供多個(gè)候選項(xiàng)的方法（Beam Search）和把后續(xù)多個(gè)步驟聯(lián)系起來看的MCTS方法的簡化版本Lookahead Search。

我們可以嘗試著在推理階段不要求模型一次做對的能力,而是讓LLM去嘗試一題多解, 然后針對多個(gè)答案進(jìn)行評估打分, 最終輸出一個(gè)正確的答案. 在答案評估的時(shí)候,同時(shí)引入對過程的評估，即Process-based Reward Model(PRM)。搜索方法上, 它采用了Lookahead Search, 本質(zhì)上是MCTS的一種特殊形式.

4. 可能的“逆向工程”

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

下面是關(guān)于這張架構(gòu)圖的詳細(xì)說明，主要包括四個(gè)階段：

4.1 數(shù)據(jù)生成

數(shù)據(jù)生成模塊負(fù)責(zé)創(chuàng)建用于訓(xùn)練的數(shù)據(jù)，包括：

合成數(shù)據(jù)生成器（Synthetic Data Generator）、人類專家、CoT數(shù)據(jù)庫（CoT Dataset，鏈?zhǔn)剿季S數(shù)據(jù)庫）、現(xiàn)實(shí)世界和沙盒數(shù)據(jù)

這些數(shù)據(jù)被匯集起來，形成訓(xùn)練數(shù)據(jù)，用于后續(xù)模型的訓(xùn)練階段。

4.2 訓(xùn)練階段

訓(xùn)練階段主要由以下幾個(gè)模塊組成：

語言模型，這是核心的AI模型，負(fù)責(zé)處理和理解語言數(shù)據(jù)。

RL環(huán)境，強(qiáng)化學(xué)習(xí)環(huán)境用于模型優(yōu)化。

獎(jiǎng)勵(lì)函數(shù)，包括驗(yàn)證（Verification）和人類反饋（Human labeling），用來指導(dǎo)模型學(xué)習(xí)。

策略優(yōu)化器（Policy Optimizer），包括梯度壓縮、Panzar系統(tǒng)、探索與利用等，用于優(yōu)化模型策略。在這個(gè)階段，模型通過強(qiáng)化學(xué)習(xí)和高級技術(shù)進(jìn)行訓(xùn)練，不斷優(yōu)化性能和效率。

4.3 推理階段

推理階段包括：

訓(xùn)練好的模型，這是通過強(qiáng)化學(xué)習(xí)和高級技術(shù)優(yōu)化后的模型。

多任務(wù)生成，處理多個(gè)任務(wù)的能力。

最終響應(yīng)，生成最終的輸出結(jié)果。

CoT生成和微調(diào)，根據(jù)鏈?zhǔn)剿季S生成并微調(diào)結(jié)果。

效率監(jiān)控：實(shí)時(shí)監(jiān)控模型的性能。

4.4 關(guān)鍵注釋

大規(guī)模CoT存儲(chǔ)進(jìn)入RL環(huán)境是作者自己的假設(shè)，作者認(rèn)為OpenAI可能會(huì)使用從現(xiàn)實(shí)世界中生成的大量鏈?zhǔn)剿季S來進(jìn)一步調(diào)整和優(yōu)化RL模型。舉例說明：假設(shè)你是一名研究員，想要構(gòu)建一個(gè)能夠進(jìn)行多任務(wù)處理的AI系統(tǒng)。

我們可以通過參考這個(gè)o1架構(gòu)按照上面三個(gè)模塊進(jìn)行以下工作：

1）首先，收集并生成各種類型的數(shù)據(jù)，包括合成數(shù)據(jù)、人類專家提供的數(shù)據(jù)以及現(xiàn)實(shí)世界的數(shù)據(jù)。

2）接著，利用這些數(shù)據(jù)訓(xùn)練你的語言模型，并在強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行優(yōu)化，通過獎(jiǎng)勵(lì)函數(shù)和策略優(yōu)化器不斷提升模型性能。

3）最后，將訓(xùn)練好的模型部署到推理階段，使其能夠處理多任務(wù)并生成最終響應(yīng)，同時(shí)監(jiān)控其效率并進(jìn)行必要的微調(diào)。這種架構(gòu)不僅適用于語言處理，還可以擴(kuò)展到其他領(lǐng)域，如圖像識別、游戲開發(fā)等，通過不斷優(yōu)化強(qiáng)化學(xué)習(xí)過程，使得AI系統(tǒng)更加智能高效。

四、幕后：o1背后的團(tuán)隊(duì)

在 OpenAI 公布的o1模型的參與人員中，不僅包括前首席科學(xué)家Ilya Sutskever，COT 作者 Jason Wei，還包含了Jiayi Weng等大量華人科學(xué)家。

在o1 的21個(gè)Foundational貢獻(xiàn)者呈現(xiàn)出了高學(xué)歷、高包容性、多元化、國際化等特點(diǎn)。

學(xué)術(shù)背景：14人擁有博士學(xué)位，3人以本科學(xué)位進(jìn)入OpenAI，1人有�？平�(jīng)歷，5人有斯坦福背景；

國家背景：團(tuán)隊(duì)來自至少8個(gè)國家，包括美國、中國、印度、韓國、意大利、土耳其、以色列、波蘭，呈現(xiàn)出了高度的國際化。其中以色列2人。

華人貢獻(xiàn)：作為人數(shù)最多的國家之一，6個(gè)華人本科分別來自清華、北大、劍橋、哈佛、達(dá)特茅斯。從某種程度上來說，OpenAI 在AI技術(shù)上的領(lǐng)先離不開華人的貢獻(xiàn)。

工作背景：作為OpenAI最主要的競爭對手，貢獻(xiàn)者中11人有 Google 背景，5人沒有相關(guān)名企經(jīng)驗(yàn)；

注：2人未找到相關(guān)資料。

21個(gè)Foundational貢獻(xiàn)者資料明細(xì)

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

五、相關(guān)名詞解釋1. MCTS

1.1 概念：蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）是一種用于某些類型決策過程的啟發(fā)式搜索算法，特別是在雙人零和游戲中。它結(jié)合了蒙特卡洛模擬的隨機(jī)抽樣和決策樹搜索的系統(tǒng)性。MCTS在計(jì)算博弈論和人工智能領(lǐng)域中非常有用，尤其是在圍棋、國際象棋和其他策略游戲中。

1.2 MCTS的基本步驟

1）選擇：從根節(jié)點(diǎn)開始，按照特定的策略，選擇最有前途的子節(jié)點(diǎn)，直到到達(dá)一個(gè)尚未完全展開（即還有未探索的行動(dòng)）的節(jié)點(diǎn)。

2）擴(kuò)展：在選擇的節(jié)點(diǎn)上添加一個(gè)或多個(gè)子節(jié)點(diǎn)，這些子節(jié)點(diǎn)代表了可能的下一步行動(dòng)。這涉及到游戲狀態(tài)的更新，將游戲向前推進(jìn)到一個(gè)新的狀態(tài)。

3）模擬：從新添加的節(jié)點(diǎn)開始，進(jìn)行蒙特卡洛模擬，直到游戲結(jié)束或達(dá)到預(yù)定的模擬深度。這個(gè)過程不需要完美信息，可以使用隨機(jī)策略來選擇行動(dòng)。

4）反向傳播：將模擬的結(jié)果（比如輸贏或得分）更新到所訪問路徑上的所有節(jié)點(diǎn)。如果模擬結(jié)果是勝利，則增加沿途節(jié)點(diǎn)的勝利次數(shù)；如果是失敗，則相應(yīng)地更新失敗的統(tǒng)計(jì)數(shù)據(jù)。

1.3 關(guān)鍵特點(diǎn)

1）自適應(yīng)搜索：MCTS能夠根據(jù)之前的搜索結(jié)果自適應(yīng)地搜索那些更有希望的區(qū)域。

2）無啟發(fā)式：與某些其他搜索算法不同，MCTS不需要領(lǐng)域特定的啟發(fā)式評估函數(shù)。

3）并行化：模擬步驟可以獨(dú)立進(jìn)行，因此MCTS很容易并行化，這使得它在多核處理器上特別有效。

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)

1.4 Beam Search、Lookahead Search、MCTS對比

Beam Search：一種啟發(fā)式的圖搜索算法，常用于機(jī)器翻譯、語音識別等領(lǐng)域的解碼過程。它在每一步都從當(dāng)前節(jié)點(diǎn)擴(kuò)展出一定數(shù)量（beam width）的最有前途的子節(jié)點(diǎn)，而不是搜索所有可能的子節(jié)點(diǎn)，從而減少了搜索空間。

Beam Search的優(yōu)點(diǎn)是計(jì)算效率高，但缺點(diǎn)是可能會(huì)錯(cuò)過一些不那么顯而易見但最終可能更優(yōu)的路徑。

Lookahead Search：一種在Beam Search基礎(chǔ)上的擴(kuò)展，它在搜索時(shí)不僅考慮當(dāng)前步驟的最優(yōu)解，還會(huì)向前看多步，考慮未來的可能性。這種搜索策略可以幫助算法做出更長遠(yuǎn)的決策，但計(jì)算成本也會(huì)隨之增加。

Lookahead Search的關(guān)鍵在于它嘗試預(yù)測并評估不同的決策路徑，從而選擇最優(yōu)的行動(dòng)方案。

MCTS：一種用于某些類型決策過程的啟發(fā)式搜索算法，它結(jié)合了隨機(jī)模擬和決策樹搜索。MCTS通過多次模擬來評估不同的決策路徑，并根據(jù)這些模擬的結(jié)果來選擇最優(yōu)的行動(dòng)。

MCTS特別適用于雙人零和游戲，如圍棋、國際象棋等，它通過構(gòu)建整個(gè)樹來探索所有可能的行動(dòng)路徑，并通過模擬來評估這些路徑。

2. Bootstrap

這是一種重采樣技術(shù)，用于從原始數(shù)據(jù)集中生成新的樣本集，以此來估計(jì)一個(gè)統(tǒng)計(jì)量（如均值、方差等）的分布。通過這種方法，可以不需要對總體分布做出任何假設(shè)，就能夠估計(jì)出模型參數(shù)的不確定性和穩(wěn)定性。

Bootstrap方法的步驟通常包括：從原始數(shù)據(jù)集中隨機(jī)抽取樣本，允許重復(fù)抽樣（即有放回抽樣）；根據(jù)抽取的樣本計(jì)算所需的統(tǒng)計(jì)量；重復(fù)上述過程多次（通常是數(shù)千次），以獲得統(tǒng)計(jì)量的分布；使用這個(gè)分布來估計(jì)原始統(tǒng)計(jì)量的標(biāo)準(zhǔn)誤差、置信區(qū)間或其他特征。

在機(jī)器學(xué)習(xí)領(lǐng)域，Bootstrap方法可以用來提高模型的泛化能力和魯棒性。例如，通過Bootstrap抽樣可以創(chuàng)建多個(gè)不同的訓(xùn)練集，然后用這些訓(xùn)練集來訓(xùn)練多個(gè)模型。這些模型可以結(jié)合起來，形成一個(gè)集成模型，如隨機(jī)森林或Bagging模型，以此來減少過擬合和提高模型的預(yù)測準(zhǔn)確性。

3. PPO

PPO（Proximal Policy Optimization，近端策略優(yōu)化）是一種在強(qiáng)化學(xué)習(xí)領(lǐng)域廣泛使用的算法，它屬于策略梯度方法的一種。PPO算法的核心思想是在每次更新策略時(shí)，限制新策略與舊策略之間的差異，以保持訓(xùn)練過程的穩(wěn)定性。

PPO算法有兩個(gè)主要變體：PPO-Penalty和PPO-Clip。PPO-Penalty通過在目標(biāo)函數(shù)中添加一個(gè)懲罰項(xiàng)來近似解決一個(gè)KL散度約束的更新問題，而PPO-Clip則不直接使用KL散度項(xiàng)，而是通過目標(biāo)函數(shù)中的裁剪操作來限制新舊策略之間的差異。

PPO算法的實(shí)現(xiàn)步驟通常包括：

1）初始化策略網(wǎng)絡(luò)參數(shù)。

2）通過與環(huán)境交互收集數(shù)據(jù)。

3）計(jì)算優(yōu)勢函數(shù)，用于評價(jià)動(dòng)作的好壞。

4）使用裁剪的目標(biāo)函數(shù)或懲罰項(xiàng)來更新策略網(wǎng)絡(luò)參數(shù)。

5）重復(fù)以上步驟，直到策略收斂。

PPO算法的優(yōu)點(diǎn)包括穩(wěn)定性、適用性和可擴(kuò)展性。它適用于離散和連續(xù)動(dòng)作空間的環(huán)境，并且可以通過并行化來提高訓(xùn)練效率。PPO算法在游戲、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域都有廣泛的應(yīng)用。

4. 激活學(xué)習(xí)

激活學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，其核心思想是選擇最有價(jià)值的數(shù)據(jù)進(jìn)行標(biāo)注和學(xué)習(xí)，從而提高學(xué)習(xí)效率和模型性能。

通常用于以下場景：數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)集規(guī)模龐大、模型性能提升空間有限。

包括以下幾個(gè)步驟：選擇標(biāo)注策略、選擇標(biāo)注數(shù)據(jù)、標(biāo)注數(shù)據(jù)、訓(xùn)練模型、迭代優(yōu)化。

在許多領(lǐng)域都有廣泛應(yīng)用，例如圖像識別、自然語言處理、推薦系統(tǒng)。

參考資料：

Open AI官網(wǎng)：

OpenAI o1、核心成員官推：OpenAI 官推、CEO Sam Altman、總裁&聯(lián)創(chuàng)Greg Brockman、COT 作者Jason Wei、模型核心成員Noam Brown、Hyung Won Chung、Ahmed El-Kishky、Ren HongYu、ShenJia Zhao

公眾號：海外獨(dú)角獸、 FudanNLP、機(jī)器之心、量子位、數(shù)字生命卡茲克、 AI Pioneer、 AI產(chǎn)品黃叔、人工智能與算法學(xué)習(xí)、AINLP、科技新聞、 GitChat、AI科技大本營、智能涌現(xiàn)、PaperWeekly、硅谷科技評論、卜寒兮AI、zartbot、投資實(shí)習(xí)所、AI的潛意識、夕小瑤科技說

本文由 @AIPM1001 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲(chǔ)空間服務(wù)

上一篇：申論｜智能算力場景少、技術(shù)受限，上海人工智能產(chǎn)業(yè)如何破局

下一篇：發(fā)布o(jì)1模型后，OpenAI CEO奧爾特曼給出“超級智能”落地時(shí)間表

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 18:57:41 瀏覽：3199次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì) 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 18:57:41 瀏覽：3199次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

全網(wǎng)最全 OpenAI o1 萬字綜述：創(chuàng)新、原理和團(tuán)隊(duì)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-24 18:57:41 瀏覽：3199次