展會(huì)信息港展會(huì)大全

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-09 18:42:27   瀏覽:2951次  

導(dǎo)讀:劃重點(diǎn) 01上海交通大學(xué)發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,分享了團(tuán)隊(duì)在復(fù)現(xiàn)過程中的發(fā)現(xiàn)和挑戰(zhàn)。 02報(bào)告提出并驗(yàn)證了旅程學(xué)習(xí)的技術(shù)巨大潛力,即在復(fù)雜數(shù)學(xué)題目上表現(xiàn)絕對(duì)性能超過傳統(tǒng)監(jiān)督學(xué)習(xí)8%。 03除此之外,報(bào)告還強(qiáng)調(diào)了旅程學(xué)習(xí)在應(yīng)對(duì)復(fù)雜、動(dòng)態(tài)和開...

劃重點(diǎn)

01上海交通大學(xué)發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,分享了團(tuán)隊(duì)在復(fù)現(xiàn)過程中的發(fā)現(xiàn)和挑戰(zhàn)。

02報(bào)告提出并驗(yàn)證了“旅程學(xué)習(xí)”的技術(shù)巨大潛力,即在復(fù)雜數(shù)學(xué)題目上表現(xiàn)絕對(duì)性能超過傳統(tǒng)監(jiān)督學(xué)習(xí)8%。

03除此之外,報(bào)告還強(qiáng)調(diào)了旅程學(xué)習(xí)在應(yīng)對(duì)復(fù)雜、動(dòng)態(tài)和開放性問題時(shí)展現(xiàn)出的明顯局限性。

04團(tuán)隊(duì)負(fù)責(zé)人表示,復(fù)現(xiàn)過程的重要性在于透明地記錄和分享整個(gè)探索過程,聚焦于遇到的根本問題。

05未來,研究團(tuán)隊(duì)將繼續(xù)探索更復(fù)雜的人工智能技術(shù)和方法,推動(dòng)AI研究方法的邊界。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

團(tuán)隊(duì)介紹:本項(xiàng)目的核心開發(fā)團(tuán)隊(duì)主要由上海交通大學(xué) GAIR 研究組的本科三年級(jí)、四年級(jí)學(xué)生以及直博一年級(jí)研究生組成。項(xiàng)目得到了來自 NYU 等一線大型語言模型領(lǐng)域頂尖研究科學(xué)家的指導(dǎo)。

詳細(xì)作者介紹見:https://github.com/GAIR-NLP/O1-Journey#about-the-team。

在人工智能領(lǐng)域掀起巨浪的 OpenAI o1 模型發(fā)布三周后,一支由高校年輕研究者組成的團(tuán)隊(duì)今天發(fā)布了題為 "o1 Replication Journey: A Strategic Progress Report (o1 探索之旅:戰(zhàn)略進(jìn)展報(bào)告)" 的研究進(jìn)展報(bào)告。這份報(bào)告的獨(dú)特之處在于 (1)不僅提出并驗(yàn)證了 “旅程學(xué)習(xí)” 的技術(shù)的巨大潛力(研究者也認(rèn)為是 o1 取得成功的關(guān)鍵技術(shù)):通過 327 條訓(xùn)練樣本,鼓勵(lì)模型學(xué)會(huì)反思、糾錯(cuò)、回溯,其在復(fù)雜數(shù)學(xué)題目上表現(xiàn) 絕對(duì)性能就超過了傳統(tǒng)監(jiān)督學(xué)習(xí) 8% 以上,相對(duì)性能提升超過 20%;(2)并且,其前所未有的透明度和即時(shí)性,不僅詳細(xì)記錄了團(tuán)隊(duì)在復(fù)現(xiàn)過程中的發(fā)現(xiàn)、挑戰(zhàn)、試錯(cuò)和創(chuàng)新方法,更重要的是,它倡導(dǎo)了一種全新的 AI 研究范式。研究團(tuán)隊(duì)負(fù)責(zé)人表示:" 我們的主要目標(biāo)不是達(dá)到與 OpenAI 的 o1 相當(dāng)?shù)男阅?考慮到可用資源有限,這是一個(gè)極具挑戰(zhàn)性的任務(wù)。相反,我們的使命是透明地記錄和分享我們的探索過程,聚焦于我們遇到的根本問題,發(fā)現(xiàn)新的科學(xué)問題,并識(shí)別導(dǎo)致 o1 的成功的關(guān)鍵因素,并與更廣泛的 AI 社區(qū)分享我們的試錯(cuò)經(jīng)驗(yàn)。o1 技術(shù)無疑會(huì)成為全球各大 AI 科技公司爭(zhēng)相復(fù)現(xiàn)的目標(biāo)。如果我們能夠及早分享一些復(fù)現(xiàn)過程中的經(jīng)驗(yàn)教訓(xùn),就能幫助其他公司減少不必要的試錯(cuò),從而降低全球范圍內(nèi) o1 技術(shù)復(fù)現(xiàn)的總體成本和時(shí)間。這不僅有利于推動(dòng)技術(shù)的快速發(fā)展,也能促進(jìn)整個(gè) AI 行業(yè)的共同進(jìn)步。

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

團(tuán)隊(duì)提出的模型在同一道數(shù)學(xué)題上,與 OpenAI 的 o1-preview (答對(duì))及 GPT-4o(答錯(cuò))的比較實(shí)例,證明旅程學(xué)習(xí)不斷試錯(cuò)、反思、自我糾正的能力在復(fù)雜推理任務(wù)場(chǎng)景上非常關(guān)鍵。

技術(shù)報(bào)告鏈接:https://github.com/GAIR-NLP/O1-Journey/blob/main/resource/report.pdf

Github 鏈接:https://github.com/GAIR-NLP/O1-Journey

o1 討論資源:https://github.com/GAIR-NLP/O1-Journey/tree/main/resource

該報(bào)告發(fā)現(xiàn)了什么?從 “"捷徑學(xué)習(xí)"” 到 “旅程學(xué)習(xí)”,從 “浮光掠影” 到 “深耕細(xì)作”

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

圖:從 "捷徑學(xué)習(xí)" 到 "旅程學(xué)習(xí)" 的范式轉(zhuǎn)變。這是一個(gè)用于推理任務(wù)的搜索樹。對(duì)于數(shù)學(xué)問題解決任務(wù),根節(jié)點(diǎn)代表初始問題,而葉節(jié)點(diǎn)則是最終結(jié)論。綠色節(jié)點(diǎn)表示正確答案,紅色節(jié)點(diǎn)表示錯(cuò)誤答案。傳統(tǒng)上,學(xué)習(xí)主要集中在對(duì)直接從根到葉的捷徑路徑進(jìn)行監(jiān)督訓(xùn)練。然而,本研究探索了對(duì)整個(gè)探索路徑進(jìn)行監(jiān)督學(xué)習(xí),這包括了試錯(cuò)和糾正的過程。

團(tuán)隊(duì)認(rèn)為,大多數(shù)現(xiàn)有的機(jī)器學(xué)習(xí)或大模型訓(xùn)練方法(如監(jiān)督式微調(diào))都可以被歸類為"捷徑學(xué)習(xí)" (Shortcut Learning),即模型學(xué)習(xí)到達(dá)正確答案的直接路徑。這種傳統(tǒng)范式雖然在特定、明確定義的任務(wù)中可能有效,但在面對(duì)復(fù)雜、動(dòng)態(tài)和開放性問題時(shí)顯示出明顯的局限性。捷徑學(xué)習(xí)具有以下幾個(gè)關(guān)鍵特征:(1) 注重快速結(jié)果:強(qiáng)調(diào)在短時(shí)間內(nèi)達(dá)到特定的性能指標(biāo)或完成特定任務(wù)。(2) 高度依賴數(shù)據(jù):性能改進(jìn)通常依賴于增加訓(xùn)練數(shù)據(jù)量,而非改進(jìn)學(xué)習(xí)算法本身。(3) 泛化能力有限:在訓(xùn)練數(shù)據(jù)分布之外的場(chǎng)景中,性能可能會(huì)急劇下降。(4) 缺乏自我糾正能力:這些系統(tǒng)通常缺乏識(shí)別和糾正自身錯(cuò)誤的能力。盡管捷徑學(xué)習(xí)推動(dòng)了人工智能的許多進(jìn)步,但它難以產(chǎn)生真正智能和可靠的人工智能系統(tǒng),無法應(yīng)對(duì)現(xiàn)實(shí)世界挑戰(zhàn)的復(fù)雜性。隨著我們追求更高級(jí)形式的人工智能甚至超級(jí)智能,這種方法的局限性變得越來越明顯。

認(rèn)識(shí)到這些缺點(diǎn),本文提出了一種名為"旅程學(xué)習(xí)"(Journey Learning) 的新范式。旅程學(xué)習(xí)旨在使人工智能系統(tǒng)能夠通過學(xué)習(xí)、反思、回溯和適應(yīng)不斷進(jìn)步,就像人類一樣,從而展現(xiàn)出更高水平的智能。

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

圖:"捷徑學(xué)習(xí)"(Shortcut Learning) 和 "歷程學(xué)習(xí)"(Journey Learning) 在 MATH500(Lightman 等人,2024 年)上的表現(xiàn)。

如圖所示,團(tuán)隊(duì)提出了 "旅程學(xué)習(xí)" 范式,它鼓勵(lì)模型不僅學(xué)習(xí)捷徑,還要學(xué)習(xí)完整的探索過程,包括試錯(cuò)、反思和回溯。僅使用 327 個(gè)訓(xùn)練樣本,不借助任何額外訓(xùn)練技巧,旅程學(xué)習(xí)在 MATH 數(shù)據(jù)集上的表現(xiàn)就超過了傳統(tǒng)監(jiān)督學(xué)習(xí) 8% 以上,展示了其極其強(qiáng)大的潛力。作者也認(rèn)為這是 o1 技術(shù)中最關(guān)鍵的組成部分。

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

表:捷徑學(xué)習(xí)和旅程學(xué)習(xí)的多維度比較

模型生成的例子

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

技術(shù)細(xì)節(jié)是什么?o1 技術(shù)探索之旅

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

團(tuán)隊(duì)負(fù)責(zé)人分享:“如果我們能夠及早分享一些復(fù)現(xiàn)過程中的經(jīng)驗(yàn)教訓(xùn),就能幫助其他公司減少不必要的試錯(cuò),從而降低全球范圍內(nèi) o1 技術(shù)復(fù)現(xiàn)的總體成本和時(shí)間。這不僅有利于推動(dòng)技術(shù)的快速發(fā)展,也能促進(jìn)整個(gè) AI 行業(yè)的共同進(jìn)步。

如圖所示,從 OpenAI o1 9 月 12 日發(fā)布的過去三周內(nèi),該團(tuán)隊(duì)對(duì) o1 技術(shù)已經(jīng)完成了系統(tǒng)化、多階段的探索。這個(gè)過程始于使用 OlympicArena 數(shù)據(jù)集對(duì) o1 進(jìn)行初步評(píng)估(如下表格),旨在全面了解其在多個(gè)學(xué)科領(lǐng)域的認(rèn)知能力。研究的核心集中在 o1 思維結(jié)構(gòu)的分析上,特別關(guān)注 "長(zhǎng)思維" 這一關(guān)鍵概念。整個(gè)探索技術(shù)涉及多個(gè)復(fù)雜的步驟,包括獎(jiǎng)勵(lì)模型的開發(fā)、在策略推理樹的構(gòu)建,以及將這些元素整合為連貫的長(zhǎng)思維過程。整個(gè)研究過程采用了迭代和并行的方法。進(jìn)行了多次嘗試,不斷調(diào)整和完善技術(shù)和方法。評(píng)估過程包括定量和定性分析,結(jié)合人工檢查和專門的分析工具,以確保研究的準(zhǔn)確性和有效性。

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

團(tuán)隊(duì)強(qiáng)調(diào)了探索過程的重要性,而不僅僅關(guān)注最終結(jié)果。這種重視科研探索過程的思路與團(tuán)推提出的 "旅程學(xué)習(xí)" 范式相一致,強(qiáng)調(diào)了在復(fù)雜、動(dòng)態(tài)環(huán)境中不斷試錯(cuò)、糾錯(cuò)的持續(xù)學(xué)習(xí)和適應(yīng)的重要性。通過這個(gè)過程,不僅獲得了關(guān)于 o1 技術(shù)的深入理解,還開發(fā)了一套探索未知 AI 技術(shù)的系統(tǒng)方法。研究過程涉及決策分析、挑戰(zhàn)識(shí)別以及創(chuàng)新解決方案的開發(fā)。最終,這項(xiàng)研究不僅僅是對(duì) o1 技術(shù)的探索,更是對(duì)先進(jìn) AI 系統(tǒng)研究方法的一次實(shí)踐和驗(yàn)證。通過分享研究過程,包括成功和失敗的經(jīng)驗(yàn),旨在為 AI 研究社區(qū)提供有價(jià)值的見解,促進(jìn)該領(lǐng)域的集體進(jìn)步。

這個(gè)探索過程展示了開放、協(xié)作的 AI 研究在推動(dòng)技術(shù)邊界方面的重要性,為未來更復(fù)雜的 AI 系統(tǒng)研究提供了有益的參考和指導(dǎo)。

具體地,團(tuán)隊(duì)凝煉了復(fù)現(xiàn) o1 過程中的幾個(gè)關(guān)鍵問題,并做了非常細(xì)致的探索分享:

Q1: o1 的思維鏈?zhǔn)鞘裁礃幼拥模?/p>

Q2: 長(zhǎng)思維 (Long thought) 是如何工作的?

Q3: 如何構(gòu)建長(zhǎng)思維?

Q4: 如何構(gòu)建獎(jiǎng)勵(lì)模型?

Q5: 如何構(gòu)建 on-policy 推理樹?

Q6: 如何從推理樹中推導(dǎo)出長(zhǎng)思維?

Q7: 如何評(píng)估我們的嘗試方法?

Q8: 如何訓(xùn)練我們的模型?

Q9: 什么是人類和 AI 協(xié)同標(biāo)注的有效策略?

Q1: o1 的思維鏈?zhǔn)鞘裁礃幼拥模?/strong>

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

表:基于對(duì) OpenAI 提供的 o1 思維示例的詳細(xì)分析而創(chuàng)建的 其中包括八個(gè)用于解決復(fù)雜任務(wù)的推理步驟或 "思維" 實(shí)例。仔細(xì)檢查了每個(gè)示例,提取了相關(guān)特征,如標(biāo)記數(shù)、行數(shù)和關(guān)鍵詞。

觀測(cè):

這些示例被分類為不同的問題類型,每種類型都與一個(gè)難度級(jí)別相關(guān)聯(lián),從簡(jiǎn)單的英語閱讀理解到復(fù)雜的多步驟數(shù)學(xué)推理任務(wù)。分析顯示了一個(gè)趨勢(shì):隨著難度的增加,響應(yīng)長(zhǎng)度(包括標(biāo)記數(shù)和行數(shù))往往成比例增長(zhǎng)。這表明更高難度的問題涉及更多的推理步驟。

除了標(biāo)記數(shù)和行數(shù)外,團(tuán)隊(duì)還進(jìn)行了關(guān)鍵詞頻率分析,以識(shí)別可能表征推理過程的重復(fù)出現(xiàn)的術(shù)語。除了常見的連接詞如 "and" 和 "so" 之外,分析還突出了幾個(gè)出現(xiàn)頻率較低但意義重大的關(guān)鍵詞。"consider"、"if" 和 "possible" 等關(guān)鍵詞經(jīng)常出現(xiàn),通常表示推理過程中的分支,考慮多條路徑。這些關(guān)鍵詞在復(fù)雜度更高的問題中出現(xiàn)頻率明顯更高,表明模型在這些情況下探索不同的解決方案路徑。像 "wait" 和 "Alternatively" 這樣的關(guān)鍵詞是模型能夠進(jìn)行反思和自我糾正的重要指標(biāo)。這表明模型具有更深入的理解和更細(xì)致的推理方法,因?yàn)槟P筒粌H僅是遵循線性路徑,還能夠基于反思重新考慮和完善其方法。

為了理解 OpenAI 的 o1 的思維過程,團(tuán)隊(duì)讓兩位博士水平學(xué)生仔細(xì)審查 OpenAI 的 o1 在解決數(shù)學(xué)問題時(shí)使用的推理過程。通過他們的詳細(xì)檢查,他們提取了反映 o1 如何處理和推理復(fù)雜方程的底層思維鏈。這個(gè)結(jié)構(gòu)化的思維圖在圖中有所展示。

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

圖:OpenAI o1 真實(shí)推理過程的結(jié)構(gòu)化形式本質(zhì)是一顆搜索樹(數(shù)學(xué)題)

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

圖:OpenAI o1 真實(shí)推理過程的結(jié)構(gòu)化形式本質(zhì)是一顆搜索樹(破譯題目)

經(jīng)過這些探索,團(tuán)隊(duì)確定需要構(gòu)建的長(zhǎng)思維數(shù)據(jù)應(yīng)具有以下特征:

迭代式問題解決:模型首先定義函數(shù),然后逐步探索相關(guān)表達(dá)式,將復(fù)雜方程分解為更簡(jiǎn)單的組成部分,反映了一種結(jié)構(gòu)化和有條理的方法。

關(guān)鍵思維指標(biāo):使用 "Therefore" 表示結(jié)論,"Alternatively" 探索不同路徑,"Wait" 表示反思,以及 "Let me compute" 過渡到計(jì)算,突出了模型的推理階段。

遞歸和反思方法:模型經(jīng)常重新評(píng)估和驗(yàn)證中間結(jié)果,使用遞歸結(jié)構(gòu)確保一致性,這在嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推理中很典型。

假設(shè)探索:模型測(cè)試不同的假設(shè),隨著獲得更多信息而調(diào)整其方法,展示了推理過程中的靈活性

結(jié)論和驗(yàn)證:最后,模型解方程并驗(yàn)證結(jié)果,強(qiáng)調(diào)在完成之前驗(yàn)證結(jié)論的重要性。

Q2: 長(zhǎng)思維 (Long thought) 是如何工作的?

這是團(tuán)隊(duì)認(rèn)為重要的問題。然而,在當(dāng)前的研究階段,該團(tuán)隊(duì)僅僅提出了猜想。團(tuán)隊(duì)認(rèn)為還沒有足夠的經(jīng)驗(yàn)證據(jù)來驗(yàn)證它們的準(zhǔn)確性,這也是未來需要重點(diǎn)展開的工作。

o1 長(zhǎng)思維方法的顯著成功可以歸因于在上述中介紹的旅程學(xué)習(xí) (Journey Learning)。與傳統(tǒng)的捷徑學(xué)習(xí) (Shortcut Learning) 不同,旅程學(xué)習(xí)允許模型探索整個(gè)決策軌跡,模仿人類的問題解決過程。這種全面的探索使 o1 能夠考慮多種解決方案路徑,從錯(cuò)誤中學(xué)習(xí),并理解完整的問題解決過程。通過經(jīng)歷正確和錯(cuò)誤的路徑,模型發(fā)展出強(qiáng)大的錯(cuò)誤處理和自我糾正能力,增強(qiáng)了其適應(yīng)新挑戰(zhàn)的能力。這種方法培養(yǎng)了對(duì)問題領(lǐng)域更深入的理解,不僅僅是知道正確答案,而是理解為什么以及如何得出答案。旅程學(xué)習(xí)過程密切模擬人類的認(rèn)知過程,包含試錯(cuò)、反思和調(diào)整。這大大增加了模型輸出內(nèi)容的可解釋性,因?yàn)?o1 可以提供詳細(xì)的解決步驟并解釋其推理過程,包括如何從錯(cuò)誤中恢復(fù)。因此,基于旅程學(xué)習(xí)的 o1 長(zhǎng)思維過程不僅僅是計(jì)算時(shí)間的擴(kuò)展,還代表了一種徹底的、人類般的推理探索。這種方法使 o1 能夠處理更復(fù)雜的問題,提供更可靠和可解釋的答案,并在面對(duì)新挑戰(zhàn)時(shí)表現(xiàn)出更大的適應(yīng)性,從而解釋了它在各種任務(wù)中的卓越表現(xiàn)。

Q3: 如何構(gòu)建長(zhǎng)思維?

嘗試 1:基于 LLM 和獎(jiǎng)勵(lì)的樹搜索根據(jù)在 Q1 中對(duì)長(zhǎng)思維的觀察,其最顯著的特征是在推理產(chǎn)生錯(cuò)誤時(shí)或遇到冗余的推理步驟時(shí)嘗試反思和回溯。這類似于在推理樹上搜索問題的解決方案,在錯(cuò)誤節(jié)點(diǎn)處回溯,直到找到正確的解決路徑。為實(shí)現(xiàn)這一點(diǎn),需要構(gòu)建一棵推理樹,其中根節(jié)點(diǎn)代表問題,其他每個(gè)節(jié)點(diǎn)代表一個(gè)推理步驟。從根到任何節(jié)點(diǎn)的路徑代表從問題到該結(jié)論的推理過程。此外,回溯和反思必須基于錯(cuò)誤的推理步驟,這需要一個(gè)更細(xì)粒度的獎(jiǎng)勵(lì)模型(即過程級(jí))來指示樹中每個(gè)節(jié)點(diǎn)的正確性。通過在具有過程級(jí)獎(jiǎng)勵(lì)的推理樹上執(zhí)行搜索算法,可以將錯(cuò)誤步驟整合到思維鏈中,從而構(gòu)建包含回溯和反思等行為的長(zhǎng)思維。

嘗試 2:提議 - 批評(píng)循環(huán) 嘗試 1 通過基于預(yù)定義規(guī)則在樹上執(zhí)行搜索來構(gòu)建長(zhǎng)思維,但這限制了回溯和反思等行為的自由度。因此,團(tuán)隊(duì)嘗試讓模型選擇自己當(dāng)前的行為。團(tuán)隊(duì)構(gòu)建了一個(gè)提議 - 批評(píng)循環(huán),其中為模型預(yù)定義了一些可能的行為(即繼續(xù)、回溯、反思、終止),并讓模型自身選擇行為來構(gòu)建推理樹。如果樹沒有達(dá)到最終答案,可以將這個(gè)負(fù)面信號(hào)告知模型,引導(dǎo)它反思和糾正其方法。

嘗試 3:多智能體方法基于推理樹構(gòu)建長(zhǎng)思維存在幾個(gè)挑戰(zhàn),包括存在許多冗余的無效節(jié)點(diǎn),以及存在不依賴于反思行為的推理步驟,從而引起構(gòu)建的長(zhǎng)思維邏輯不一致。為解決這個(gè)問題,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)利用多智能體辯論的算法,其中一個(gè)智能體充當(dāng)策略模型,持續(xù)推理,而另一個(gè)智能體充當(dāng)評(píng)論模型,指示策略模型是否應(yīng)該繼續(xù)當(dāng)前推理或執(zhí)行回溯等行為。兩個(gè)智能體進(jìn)行持續(xù)對(duì)話,在找到正確答案時(shí)自然構(gòu)建長(zhǎng)思維數(shù)據(jù)集。

嘗試 4:完整的人類思維過程注釋 當(dāng)人類處理推理問題時(shí),他們通常不會(huì)不斷地向前推理直到解決問題或失;相反,他們?cè)跓o法繼續(xù)時(shí)會(huì)反思、回溯和重寫推理。這種行為與長(zhǎng)思維的特征高度一致。因此,可以忠實(shí)且全面地記錄人類解決推理任務(wù)的過程,從而產(chǎn)生高質(zhì)量的長(zhǎng)思維。

Q4: 如何構(gòu)建獎(jiǎng)勵(lì)模型?

使用獎(jiǎng)勵(lì)模型的第一步是定義粒度。團(tuán)隊(duì)的目標(biāo)不僅僅是關(guān)注最終結(jié)果,而是專門提高 LLMs 在反思、回溯和相關(guān)認(rèn)知過程方面的能力。因此,團(tuán)隊(duì)將評(píng)估粒度定義在步驟層面。具體來說,團(tuán)隊(duì)使用來自 Abel 的微調(diào)數(shù)據(jù),通過行號(hào)使解決方案變得清晰可辨。

實(shí)現(xiàn)獎(jiǎng)勵(lì)模型的過程可以使用開源模型或是調(diào)用閉源模型的 api。團(tuán)隊(duì)比較了不同獎(jiǎng)勵(lì)模型在 PRM800K 和 MR-GSM8K 子集上的元評(píng)估表現(xiàn)。如下表格展示了結(jié)果,其中,o1-mini 在不同數(shù)據(jù)集上表現(xiàn)最佳,證明其是一個(gè)良好的獎(jiǎng)勵(lì)模型。

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

Q5: 如何構(gòu)建 on-policy 推理樹?

構(gòu)建推理樹需要一個(gè)能夠執(zhí)行單步推理的策略模型。給定一個(gè)問題及其相應(yīng)的最終答案,策略模型從問題作為根節(jié)點(diǎn)開始,不斷向樹中添加新節(jié)點(diǎn)。它首先生成 w 個(gè)可能的第一步推理步驟作為根節(jié)點(diǎn)的子節(jié)點(diǎn)。然后,它迭代地進(jìn)行前向推理,為每個(gè)當(dāng)前節(jié)點(diǎn)(如第一步推理)生成 w 個(gè)可能的后續(xù)推理步驟作為該節(jié)點(diǎn)的子節(jié)點(diǎn)。這個(gè)過程重復(fù)進(jìn)行,直到達(dá)到預(yù)設(shè)的最大深度或所有葉節(jié)點(diǎn)達(dá)到最終答案。

策略模型和步驟分段構(gòu)建推理樹需要清晰定義推理步驟。為此,團(tuán)隊(duì)采用 Abel 提出的數(shù)據(jù)格式,將數(shù)學(xué)問題解決方案轉(zhuǎn)化為具有清晰步驟的形式,將答案分成多行,每行以行號(hào)開始,并包含該行內(nèi)的推理。因此,使用 Abel 數(shù)據(jù)集對(duì) DeepSeekMath-7B-Base 進(jìn)行微調(diào),得到 Abel-DSMath,作為策略模型。在這種特定格式數(shù)據(jù)上微調(diào)的模型可以方便地控制單個(gè)推理步驟的生成。

獎(jiǎng)勵(lì)模型和剪枝上述提出的樹生成算法計(jì)算成本高昂。當(dāng)設(shè)置后續(xù)推理步驟數(shù)目為 3 和深度為 10 時(shí),最后一次迭代需要生成 3 的 10 次方個(gè)推理步驟。因此,使用獎(jiǎng)勵(lì)模型來剪除錯(cuò)誤的推理步驟,提高操作效率。具體來說,團(tuán)隊(duì)采用束搜索,在每次迭代中只選擇少量候選項(xiàng)保留到下一輪。根據(jù)使用的獎(jiǎng)勵(lì)模型,剪枝實(shí)現(xiàn)的細(xì)節(jié)有所不同。團(tuán)隊(duì)嘗試了兩個(gè)獎(jiǎng)勵(lì)模型:math-shepherd 和 o1-mini。

Math-shepherd 為每個(gè)步驟提供一個(gè)介于 0 和 1 之間的實(shí)數(shù),表示當(dāng)前步驟正確的概率。在樹生成的每次迭代中,對(duì)所有推理步驟進(jìn)行評(píng)分,并選擇得分最高的前 K 個(gè)進(jìn)入下一次迭代。這將總生成次數(shù)進(jìn)行剪枝。然而,math-shepherd 在評(píng)估困難問題的推理步驟時(shí)存在困難,需要一個(gè)更強(qiáng)大的獎(jiǎng)勵(lì)模型,能夠?yàn)槊總(gè)步驟提供高準(zhǔn)確度的正確性指示。因此,最終使用 o1-mini 為每個(gè)步驟提供獎(jiǎng)勵(lì),直接指示每個(gè)推理步驟是否正確。此時(shí),在樹生成的每次迭代中,利用來自 o1-mini 的獎(jiǎng)勵(lì),選擇最多 K 個(gè)正確的推理步驟進(jìn)入下一次迭代。

Q6: 如何從推理樹中推導(dǎo)出長(zhǎng)思維?

一旦構(gòu)建了推理樹,目標(biāo)就變?yōu)樘剿魅绾螐耐评順滢D(zhuǎn)換為包含試錯(cuò)過程的長(zhǎng)思維。在該團(tuán)隊(duì)的框架中,推理樹的每個(gè)節(jié)點(diǎn)都被獎(jiǎng)勵(lì)模型標(biāo)注,指示該步驟是否正確或錯(cuò)誤。具體的合成步驟如下:

從推理樹構(gòu)建捷徑首先從推理樹構(gòu)建捷徑,其中只包括正確答案和有效的中間步驟。從代表問題的根節(jié)點(diǎn)開始,找出通向正確答案葉節(jié)點(diǎn)的路徑。如果有多個(gè)正確答案節(jié)點(diǎn),則建立多條正確路徑。

遍歷推理樹為了得到長(zhǎng)思維,采用深度優(yōu)先搜索(DFS)遍歷樹。這種遍歷按 DFS 順序構(gòu)建路徑,記錄從根問題節(jié)點(diǎn)到正確答案葉節(jié)點(diǎn)的每一步,同時(shí)包括任何被標(biāo)記為錯(cuò)誤的節(jié)點(diǎn)的推理。DFS 的挑戰(zhàn)在于它探索了龐大的搜索空間,產(chǎn)生了大量可能無法得到正確解決方案的試錯(cuò)路徑。為了簡(jiǎn)化這一初始探索,團(tuán)隊(duì)還引入了具體的約束來緩解由于遍歷路徑過長(zhǎng)導(dǎo)致的合成數(shù)據(jù)的復(fù)雜性。首先,根據(jù)節(jié)點(diǎn)是否位于正確路徑(即捷徑)上來標(biāo)記樹中的所有節(jié)點(diǎn)。遍歷遵循以下規(guī)則:

正確路徑上的節(jié)點(diǎn):DFS 遇到正確路徑上的節(jié)點(diǎn)時(shí),它可能會(huì)探索導(dǎo)致錯(cuò)誤結(jié)果的子節(jié)點(diǎn),從而模擬試錯(cuò)的過程。一旦這個(gè)節(jié)點(diǎn)到達(dá)葉節(jié)點(diǎn)并被確定為錯(cuò)誤,算法就會(huì)回溯并切換到正確的路徑繼續(xù)遍歷。

不在正確路徑上的節(jié)點(diǎn):隨機(jī)選擇一個(gè)子節(jié)點(diǎn)進(jìn)行探索,并不產(chǎn)生試錯(cuò)的分支。

為進(jìn)一步簡(jiǎn)化過程,應(yīng)用了一個(gè)額外的約束:正確路徑上的每個(gè)節(jié)點(diǎn)最多允許 K 次試錯(cuò) 一次在錯(cuò)誤路徑上的試錯(cuò)和一次在正確路徑上的探索。 這些約束確保 DFS 遍歷專注有意義的試錯(cuò)探索,同時(shí)避免過度探索錯(cuò)誤路徑。在未來的實(shí)驗(yàn)中,計(jì)劃移除或調(diào)整這些約束,以研究試錯(cuò)路徑長(zhǎng)度與最終模型性能之間的關(guān)系。

從遍歷路徑得到長(zhǎng)思維 生成遍歷路徑并將推理附加到錯(cuò)誤節(jié)點(diǎn)后,通過連接路徑中的所有步驟來構(gòu)建長(zhǎng)思維,其中還包含了每個(gè)錯(cuò)誤步驟的推理。然而,初步實(shí)驗(yàn)表明,使用這個(gè)形式的長(zhǎng)思維數(shù)據(jù)來訓(xùn)練模型的性能不佳。為解決這個(gè)問題,團(tuán)隊(duì)嘗試使用 GPT-4o 來修改草稿。GPT-4o 在保留所有推理步驟(包括錯(cuò)誤步驟、反思和修正)的同時(shí),增強(qiáng)了思維過程的連貫性和流暢性。這種方法確保最終的長(zhǎng)思維不僅準(zhǔn)確,而且自然流暢,模擬了包含正確和錯(cuò)誤步驟的人類問題解決過程。

Q7: 如何評(píng)估我們的嘗試方法?

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

圖:通過可交互的數(shù)據(jù)分析平臺(tái)可視化構(gòu)建的搜索樹

除了使用特定評(píng)估指標(biāo)在基準(zhǔn)測(cè)試上測(cè)試準(zhǔn)確率分?jǐn)?shù)外,人工審查實(shí)際案例(輸入輸出)是評(píng)估數(shù)據(jù)和模型的關(guān)鍵步驟。因此,為了提供一種更直觀的方式來評(píng)估模型在特定問題上的表現(xiàn),團(tuán)隊(duì)構(gòu)建了一個(gè)可視化數(shù)據(jù)分析平臺(tái)。

具體來說,可視化平臺(tái)包括合成樹及其對(duì)應(yīng)長(zhǎng)思維的可視化,以及訓(xùn)練模型的輸出。此外,在可視化結(jié)果時(shí),支持詳細(xì)的條件過濾,例如過濾正確或錯(cuò)誤回答的問題,或輸出是否包含表示反思或猶豫的關(guān)鍵詞(如 "wait")。另外,可視化平臺(tái)支持不同迭代輪次的合成數(shù)據(jù)和模型輸出之間的比較,這使得團(tuán)隊(duì)可以非常直觀地驗(yàn)證新一輪的數(shù)據(jù)或模型是否有效。

Q8: 如何訓(xùn)練我們的模型?

團(tuán)隊(duì)實(shí)驗(yàn)使用預(yù)訓(xùn)練語言模型 deepseek-math-7b-base(更多其他模型已經(jīng)在等待列表中)。訓(xùn)練過程分為兩個(gè)主要階段:監(jiān)督微調(diào)(SFT)和直接偏好學(xué)習(xí)(DPO)。

第一階段:監(jiān)督微調(diào)(SFT):

SFT 過程包括兩個(gè)階段:

初始階段:在這個(gè)初始階段,團(tuán)隊(duì)專注于使用只包含正確中間步驟和最終正確答案的響應(yīng)來微調(diào)模型。在 Abel 數(shù)據(jù)集和 PRM800K 數(shù)據(jù)集上微調(diào) Deepseek-math-7b-base。對(duì)于 PRM800K 中的每個(gè)問題,使用單個(gè)正確的逐步解決方案,丟棄不導(dǎo)向最終答案的回復(fù)。在這個(gè)階段,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行一個(gè) epoch 的微調(diào),主要目的是讓模型熟悉所需的響應(yīng)格式。

旅程學(xué)習(xí):在第二階段,使用構(gòu)建的長(zhǎng)思維(包含 327 個(gè)示例)進(jìn)一步微調(diào)初始階段的 SFT 模型。這個(gè)階段旨在增強(qiáng)模型發(fā)現(xiàn)錯(cuò)誤、自我反思、自我修正和執(zhí)行回溯的能力。通過在合成的包含試錯(cuò)、反思的長(zhǎng)思維數(shù)據(jù)上訓(xùn)練,模型對(duì)更長(zhǎng)推理鏈中涉及的復(fù)雜性有更深入的理解。為了比較,團(tuán)隊(duì)還在從同一推理樹生成的相應(yīng)捷徑上 (Shortcut Learning) 微調(diào)模型(同樣是 327 個(gè)),從而更直觀的比較旅程學(xué)習(xí)相比捷徑學(xué)習(xí)所帶來的增益。

第二階段:直接偏好學(xué)習(xí)(DPO)

在這個(gè)階段,使用核采樣(top_p = 0.95 和溫度 T = 0.7)從 MATH Train 數(shù)據(jù)集為每個(gè)問題生成 20 個(gè)回復(fù)。這 20 個(gè)回復(fù)根據(jù)最終答案的正確性分類為正面和負(fù)面響應(yīng)。從中,隨機(jī)選擇 5 個(gè)正面響應(yīng)和 5 個(gè)負(fù)面響應(yīng)來創(chuàng)建 5 對(duì)偏好對(duì)。然后,使用這些偏好對(duì)和 DPO 損失來訓(xùn)練模型,使其能夠從正確和錯(cuò)誤答案的比較中學(xué)習(xí)。

Q9: 什么是人類和 AI 協(xié)同標(biāo)注的有效策略?

團(tuán)隊(duì)開發(fā)了一種人類和 AI 協(xié)作的數(shù)據(jù)標(biāo)注流程,用于生成基于 MATH 數(shù)據(jù)集的高質(zhì)量、長(zhǎng)文本推理數(shù)據(jù)。通過這個(gè)流程,我們將短短幾行人類標(biāo)注的解題方案擴(kuò)展為包含數(shù)千個(gè) token 的、符合 “旅程學(xué)習(xí)” 范式的詳細(xì)推理過程。在構(gòu)建流程的過程中,我們發(fā)現(xiàn)了下面幾種有效的標(biāo)注技巧:

完整的思維過程:標(biāo)注者不必詳細(xì)記錄每一個(gè)想到的詞語,但必須記錄每一個(gè)嘗試、反思、聯(lián)想和修正的過程。這些發(fā)散的認(rèn)知路徑在日常思考中可能并未被表達(dá)成文字,甚至沒有被顯式認(rèn)知。然而,捕捉這些思維轉(zhuǎn)變以及背后的原因是至關(guān)重要的。這種規(guī)劃和理解認(rèn)知轉(zhuǎn)換的能力是大語言模型從我們的數(shù)據(jù)中必須學(xué)習(xí)的核心技能。

補(bǔ)充解釋常識(shí):人類在用語中經(jīng)常省略一些可以從上下文中推斷的信息,比如對(duì)前述公式的引用,或是對(duì)廣為人知的理論的應(yīng)用。然而,當(dāng)大語言模型嘗試解讀人類標(biāo)注時(shí),這種省略可能導(dǎo)致幻覺。因此,高質(zhì)量的數(shù)據(jù)必須包括對(duì)常識(shí)性知識(shí)的明確解釋,以防止大模型的誤解。

遵循以上兩個(gè)關(guān)鍵要素,人類專家即可完成數(shù)據(jù)標(biāo)注,這些數(shù)據(jù)精簡(jiǎn)但準(zhǔn)確,非常利于大模型做進(jìn)一步增強(qiáng)。下一階段,通過設(shè)計(jì)復(fù)雜的提示詞,我們通過大語言模型實(shí)現(xiàn)了數(shù)據(jù)擴(kuò)展和增強(qiáng)。我們的提示詞包含以下關(guān)鍵點(diǎn):

數(shù)據(jù)顆粒度的增強(qiáng):提示詞強(qiáng)調(diào)將問題解決過程分解為更細(xì)小的步驟。通過將過程拆解成細(xì)粒度且易于理解的步驟塊,大語言模型能更好地掌握和內(nèi)化每個(gè)概念,確保在每個(gè)階段都有深入的理解。

逐步推理:提示詞控制大語言模型需頻繁暫停,反思已知信息或提出下一步的操作。這種停頓模仿了學(xué)生在思考問題時(shí)的自然過程,幫助他們保持參與感和對(duì)推理過程的連接感,而不僅僅是被動(dòng)地遵循指令。

探索者視角:與直接呈現(xiàn)答案不同,大語言模型被鼓勵(lì)以探索的語氣進(jìn)行推理,即假設(shè)自己是第一次思考這個(gè)問題。這種方式可以激發(fā)某種程度的 “好奇心”,鼓勵(lì)模型批判性思考,使他們感覺自己是學(xué)習(xí)過程的一部分,而不是簡(jiǎn)單地接收信息。

為什么科學(xué)進(jìn)展報(bào)告很重要?

研究團(tuán)隊(duì)表示:傳統(tǒng)發(fā)論文方無法適應(yīng)新的科研范式,人工智能技術(shù)的快速發(fā)展開創(chuàng)了一個(gè)新的研究范式時(shí)代,其特點(diǎn)是長(zhǎng)期的、基于團(tuán)隊(duì)的努力,通常持續(xù)六個(gè)月或更長(zhǎng)時(shí)間。這種轉(zhuǎn)變雖然有利于突破性創(chuàng)新,但無意中給科學(xué)過程帶來了新的挑戰(zhàn)。長(zhǎng)期團(tuán)隊(duì)合作的內(nèi)向性經(jīng)常導(dǎo)致向更廣泛科學(xué)界信息流動(dòng)的減少。此外,這些項(xiàng)目的長(zhǎng)期性質(zhì)往往導(dǎo)致研究人員滿足感的延遲,可能在整個(gè)研究過程中培養(yǎng)焦慮和動(dòng)力減弱。另外,大規(guī)模團(tuán)隊(duì)項(xiàng)目的復(fù)雜性使得認(rèn)可個(gè)人貢獻(xiàn)變得復(fù)雜,可能侵蝕傳統(tǒng)的學(xué)術(shù)激勵(lì)結(jié)構(gòu)。團(tuán)隊(duì)的進(jìn)展報(bào)告方法旨在通過增強(qiáng)透明度、促進(jìn)實(shí)時(shí)反饋和認(rèn)可,以及鼓勵(lì)對(duì)長(zhǎng)期研究計(jì)劃的持續(xù)承諾來解決這些新出現(xiàn)的挑戰(zhàn)。在這樣的背景下,團(tuán)隊(duì)認(rèn)為 ”Scientific Progress Report“ (科研進(jìn)展報(bào)告)是一種比 現(xiàn)在”Scentific Paper“ (科研論文)更有價(jià)值的科研產(chǎn)出和成果分享的組織形式。團(tuán)隊(duì)科學(xué)探索過程的細(xì)致記錄,尤其在 AI 能力快速發(fā)展的背景下,具有深遠(yuǎn)意義。通過全面記錄探索過程,包括成功和失敗,團(tuán)隊(duì)正在培育一個(gè)獨(dú)特而寶貴的數(shù)據(jù)集。這份全面的記錄對(duì)于訓(xùn)練真正理解科學(xué)方法的 AI 模型至關(guān)重要。o1 的成功強(qiáng)調(diào)了 AI 系統(tǒng)不僅要學(xué)習(xí)結(jié)果,還要學(xué)習(xí)完整的科學(xué)探索過程,包括試錯(cuò)的重要性。通過科研進(jìn)展報(bào)告,不僅可以捕捉技術(shù)細(xì)節(jié),還包括決策理由、靈感來源和思維過程。這些 "人類因素" 對(duì)于訓(xùn)練能夠進(jìn)行真實(shí)科學(xué)發(fā)現(xiàn)的 AI 模型至關(guān)重要。

下一步探索

團(tuán)隊(duì)根據(jù)的研究時(shí)間線和取得的進(jìn)展,確定了幾個(gè)未來探索和發(fā)展的關(guān)鍵方向:

擴(kuò)展長(zhǎng)思維的合成: 基于在長(zhǎng)思維合成方面的成功迭代,團(tuán)隊(duì)計(jì)劃進(jìn)行第三輪的數(shù)據(jù)集成。這將涉及處理更復(fù)雜和多樣的思維模式,可能揭示 o1 能力的新維度。

長(zhǎng)思維擴(kuò)展定律實(shí)驗(yàn): 這個(gè)研究流程旨在理解模型的性能和能力如何隨著數(shù)據(jù)、模型大小和計(jì)算資源的增加而擴(kuò)展。對(duì)這個(gè)規(guī)律的掌握對(duì)優(yōu)化方法和挖掘超級(jí) AI 系統(tǒng)背后的基本原理至關(guān)重要。

細(xì)粒度、以思考為中心的評(píng)估: 計(jì)劃開發(fā)和實(shí)施更復(fù)雜的評(píng)估方法,專注于細(xì)粒度、以思考為中心的評(píng)估。這種方法將讓我們更準(zhǔn)確地衡量生成的長(zhǎng)思維的質(zhì)量和連貫性,為模型推理能力提供更深入的洞察。

人機(jī)協(xié)作以提高思考質(zhì)量: 未來計(jì)劃的一個(gè)關(guān)鍵部分是探索和增強(qiáng)人機(jī)協(xié)作,以產(chǎn)生更貼近人類思維的高質(zhì)量思考數(shù)據(jù)。這涉及開發(fā)利用人類智能和 AI 能力的共同優(yōu)勢(shì),促進(jìn) AI 能力的突破。

持續(xù)改進(jìn)獎(jiǎng)勵(lì)和批評(píng)模型: 基于過程級(jí)獎(jiǎng)勵(lì)模型和評(píng)論模型設(shè)置,旨在進(jìn)一步完善這些系統(tǒng)。這個(gè)持續(xù)的過程將涉及迭代改進(jìn),以更好地提供細(xì)粒度的監(jiān)督信號(hào)。

推理樹的合成優(yōu)化: 計(jì)劃探索從推理樹中推導(dǎo)和集成長(zhǎng)思維更復(fù)雜、有效的方法。這將涉及探索更加先進(jìn)高效的算法來遍歷并利用復(fù)雜結(jié)構(gòu)中的信息。

擴(kuò)展訓(xùn)練方法: 未來計(jì)劃包括進(jìn)一步實(shí)驗(yàn)和完善訓(xùn)練流程。這包括增加預(yù)訓(xùn)練階段、迭代訓(xùn)練、強(qiáng)化學(xué)習(xí)、偏好學(xué)習(xí)和 DPO(直接偏好優(yōu)化)。

持續(xù)的透明度和資源共享: 將繼續(xù)分享在整個(gè)科研旅程中開發(fā)的資源、觀察到的結(jié)論和工具。這種持續(xù)的做法旨在促進(jìn)更廣泛的 AI 研究社區(qū)的協(xié)作和加速進(jìn)展。

探索多代理方法: 基于在多代理系統(tǒng)方面的初步嘗試,計(jì)劃深入研究這一領(lǐng)域,發(fā)現(xiàn)建模復(fù)雜推理和決策過程潛在的新方法。

完善分析工具: 旨在進(jìn)一步開發(fā)和增強(qiáng)分析工具。這些工具對(duì)解釋模型輸出、跟蹤進(jìn)展和指導(dǎo)未來研究方向至關(guān)重要。

通過追求這些途徑,不僅推進(jìn)我們對(duì) o1 能力的理解和復(fù)制,還要推動(dòng) AI 研究方法的邊界。

核桃計(jì)劃

上交大發(fā)布首個(gè)OpenAI o1復(fù)現(xiàn)項(xiàng)目進(jìn)展報(bào)告,滿滿的經(jīng)驗(yàn)洞察

團(tuán)隊(duì)借本項(xiàng)目正式引出 “核桃計(jì)劃” (https://gair-nlp.github.io/walnut-plan),團(tuán)隊(duì)成員表示:“對(duì) o1 技術(shù)路線的探索及復(fù)現(xiàn)工作,僅僅是我們核桃計(jì)劃的一部分。核桃計(jì)劃旨在成為人工智能復(fù)雜推理和深度思考能力研究的開放先鋒,致力于推動(dòng) AI 從簡(jiǎn)單的信息處理工具演變?yōu)榫邆?"牛頓" 和 "愛因斯坦" 級(jí)別深度思考能力的智能系統(tǒng)。我們將著眼于更長(zhǎng)遠(yuǎn)的研究,最終的偉大愿景是讓未來可以呈現(xiàn) AI 驅(qū)動(dòng)的科研范式,即 AI 完全具備參與人類科研的水準(zhǔn),從而更好地服務(wù)人類、改變世界。”

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港