展會信息港展會大全

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-13 08:36:23   瀏覽:162次  

導讀:衡宇 發(fā)自 凹非寺量子位 | 公眾號 QbitAIIOI 2024金牌,OpenAI o3輕松高分拿下!剛剛,OpenAI發(fā)布了關(guān)于推理模型在競技編程中應用的研究論文報告,論文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具體成績。三兄弟分別是OpenAI o1、o1-ioi(以o1為基礎微調(diào)等改進而來)、o3,三者成績?nèi)缦。IOI 2024,國際信息學奧林匹克競賽:o1-ioi在嚴格規(guī)則下拿到213分(49th perc ......

衡宇 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

IOI 2024金牌,OpenAI o3輕松高分拿下!

剛剛,OpenAI發(fā)布了關(guān)于推理模型在競技編程中應用的研究論文報告,論文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具體成績。

三兄弟分別是OpenAI o1、o1-ioi(以o1為基礎微調(diào)等改進而來)、o3,三者成績?nèi)缦隆?br/>

IOI 2024,國際信息學奧林匹克競賽:

o1-ioi在嚴格規(guī)則下拿到213分(49th percentile),放寬提交限制后飆升至362.14分;

o3在嚴格規(guī)則下就拿到了395.64分,達成金牌成就。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

CodeForeces,模擬真實競賽環(huán)境評估模型。

其中,o1-ioi和o3的評分顯著高于o1,尤其是o3,已經(jīng)接近頂級人類選手:

o1:1673(89th percentile)

o1-ioi:2214(98th percentile)

o3:2724(99.8th percentile)

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

論文迅速在全網(wǎng)擴散開來,網(wǎng)友競相傳閱并激烈討論。

有網(wǎng)友注意到,o1-ioi在IOI 2024上表現(xiàn)出色,是因為它為每個問題生成了10000個候選解決方案,還用上了復雜的test-time策略;而o3在嚴格限制下達到頂級選手水平,僅用了50次提交,且無人工策略干預。

這就引出了OpenAI在論文中的一個高亮結(jié)論

o3的表現(xiàn),證明了通過大規(guī)模端到端RL(強化學習),無需依賴人工設計的測試時推理策略,就能自己學會先寫暴力求解代碼提高效率,再用其他方法交叉驗證的策略。

網(wǎng)友滿嘴喊著“impressive”:

下一個里程碑,是出現(xiàn)「單次提交就能搞定每個問題」的模型;蛟SOpenAI o4會帶來這個時刻。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

目前,這篇名為《Competitive Programming with Large Reasoning Models》的報告論文已經(jīng)掛在了arXiv上,文末可見直通車。

o系三兄弟,競賽編程各顯神通競技編程,是評估大模型推理和編碼能力的理想測試場景。

OpenAI表示,這篇論文的研究目的,是探究在復雜編碼和推理任務中,RL對大模型所起到的作用。

研究過程還對比了通用推理模型與領(lǐng)域特定系統(tǒng)的性能,探索提升AI推理能力的有效路徑。

參與研究的推理模型共3個,均出自OpenAI自家家門,分別是:

OpenAI o1

OpenAI o1-ioi

OpenAI o3

通用推理模型o1o1是一個經(jīng)過RL訓練的大模型,用于處理復雜的推理任務。

通過RL訓練,o1能生成CoT(chain-of-thought,思維鏈),其作用是思考和解決復雜問題,幫助模型識別和糾正錯誤,將復雜任務分解為可管理的部分,并在方法失敗時探索替代解決方案路徑。

除此之外,o1還可調(diào)用外部工具驗證代碼。

在CodeForce基準測試中,o1拿下了1673分(89th percentile)。

相比非推理模型(如GPT-4o),和早期推理模型(如o1-preview),o1成績均有顯著提升。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

此外,研究人員在對o1進行開發(fā)和評估的過程中,發(fā)現(xiàn)增加「RL計算量」以及「test-time推理計算量」兩方面的工作,都能持續(xù)提升模型性能。

如下圖所示,擴展RL訓練和擴展test-time推理均帶來了顯著的收益。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

針對性訓練推理模型o1-ioi在發(fā)現(xiàn)增加「RL計算量」以及「test-time推理計算量」的重要性后,OpenAI團隊在o1基礎上進行針對性訓練,得到o1-ioi,目標直指IOI 2024。

除了針對編碼任務的持續(xù)RL訓練外,o1-ioi還結(jié)合了專為競賽編程而設計的專用test-time推理策略(類似AlphaCode的人工設計的test-time推理策略)。

此過程第一步是擴展o1的RL階段,專注于編碼任務。

通過將額外的訓練計算專用于編程問題,團隊增強了模型規(guī)劃、實施和調(diào)試更多涉及的解決方案的能力。

具體如下:

從o1的checkpoint恢復了RL訓練。

特別強調(diào)了具有挑戰(zhàn)性的編程問題,幫助模型改進C++生成和運行時檢查。

指導模型以IOI提交格式生成輸出。

這種對編碼的額外關(guān)注,使o1-ioi能在推理期間編寫和執(zhí)行C++程序。

該模型通過迭代運行和優(yōu)化解決方案來改進其推理能力,從而增強了其編碼和解決問題的能力。

o1-ioi參與了人類選手相同條件的IOI 2024。

它有10個小時的時間,來解決6個具有挑戰(zhàn)性的算法問題,每個問題最多允許提交50次。

參賽期間,系統(tǒng)為每個問題生成了10000個候選解決方案,并使用test-time推理策略選了50個方案來提交這里的test-time推理策略是,根據(jù)IOI公共測試用例、模型生成測試用例和學習的評分函數(shù)上的表現(xiàn),來確定每個提交內(nèi)容的優(yōu)先級。

最終,o1-ioi在IOI 2024獲213分,排名前49%。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

在CodeForces基準測試上,o1-ioi的評分達到1807,超過了93%的競爭對手。

論文中寫道,“這表明,在編碼任務上的額外RL訓練有了明顯的改進!

然后,團隊用一個簡單的篩選條件來拒絕任何未通過公開測試的解決方案時,評分上升到2092。

最終,在完整的test-time推理策略推動下,o1-ioi的評分飆升到2214。

這些結(jié)果證實,特定領(lǐng)域的RL微調(diào)與高級選擇啟發(fā)式相結(jié)合,可以顯著提高有競爭力的編程結(jié)果。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

研究人員表示,o1-ioi的表現(xiàn),證明特定領(lǐng)域的RL微調(diào)與先進選擇策略,是可以提升競技編程成績的。

通用推理模型o3第三個參戰(zhàn)的是OpenAI最新推理模型o3。

基于o1和o1-ioi的表現(xiàn),OpenAI團隊探索了純RL訓練、不依賴人工設計的test-time策略的局限性。

甚至試圖探索用RL進一步訓練,該模型是否能夠自主開發(fā)和執(zhí)行自己的test-time推理策略

為此,團隊取得了o3的早期checkpoint的訪問權(quán)限,來評估競賽編程。

參與IOI 2024競賽時,o3與o1-ioi一樣嚴格遵守官方規(guī)則,每個問題最多允許提交50次。

與o1-ioi為每個子任務單獨采樣解決方案不同,團隊在評估o3時,采用了不同的方法:

從包含原始問題的單個提示中采樣。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

△o測試自己的解決方案

多提一句,參加IOI 2024的o3版本比參加CodeForce的o3版本更新,包含了額外的更新的訓練數(shù)據(jù)。

不過團隊確認了IOI 2024的測試集不包含在新的訓練測試里。

在單個問題只能提交50次的限制下,o3在IOI 2024的最終得分是395.64,超過了IOI 2024金牌門檻。

(IOI 2024共產(chǎn)生34名金牌選手,金牌線為≥ 359.71)

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

而在CodeForce基準測試上,僅僅依靠進一步的RL,o3就獲得了2724分的成績,力壓99.8%的選手。

這個成績直逼人類頂尖選手的水準!

值得注意的是,從得分2214的o1-ioi(超越98%選手),到得分2724的o3(超越99.8%選手),反映了推理模型在競賽編程中的顯著提升。

這表明o3能夠以更高的可靠性,解決更廣泛的復雜算法問題,使其能力更接近CodeForces的頂級人類競爭對手。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

更有意思的是,o3在CodeForce參賽期間展現(xiàn)出了更深思熟慮的思維鏈。

它不僅能寫代碼、執(zhí)行并驗證,還會根據(jù)反饋不斷完善解法。

面對驗證復雜的難題,o3在端到端RL期間,竟然學會了先寫出暴力解法,再用最優(yōu)算法的結(jié)果來交叉驗證。

這種自主學習的驗證機制,有效提高了方案的可靠性。

綜上,團隊表明,o3的性能優(yōu)于o1-ioi的原因,不依賴于針對IOI的特定人工設計的test-time策略。

相反,o3訓練期間出現(xiàn)的復雜test-time技術(shù)如用暴力解法來驗證輸出成為了人工設計策略的替代品,讓o3不需要o1-ioi所需的手動設計聚類、選擇pipeline等需求。

且比人工設計策略的性能高出不少。

軟件工程任務表現(xiàn)如何?除了競賽編程,論文還在真實的軟件工程任務上測試了OpenAI推理模型三兄弟的表現(xiàn)。

團隊主要是在2個數(shù)據(jù)集上測試了仨模型:

HackerRank Astra:用于評估大模型在跨域多文件項目問題上正確性和一致性的測試集

SWE-bench:用于評估和預測軟件工程的基準測試和模型評估集,由普林斯頓大學NLP團隊開發(fā)

令人驚喜的是,推理能力的增強對軟件工程任務也有顯著提升。

三兄弟不僅能在競賽編程中直逼人類頂尖選手,在真實的軟件工程任務上也有亮眼表現(xiàn)。

具體如下:

HackerRank AstraHackerRank Astra由65個面向項目的編碼挑戰(zhàn)組成,每個挑戰(zhàn)都是為了模擬真實的軟件開發(fā)任務而精心設計的。

這些挑戰(zhàn)涵蓋了一系列框架,包括 React.js、Django 和 Node.js,允許獲得構(gòu)建功能和應用程序的實踐經(jīng)驗。

該數(shù)據(jù)集的與眾不同之處在于,它專注于評估反映實際開發(fā)環(huán)境的復雜、多文件、長上下文場景中的問題解決技能。

與典型的競爭性編程數(shù)據(jù)集不同,HackerRank Astra不提供公開的測試用例,這使OpenAI團隊無法依賴人工制作的測試時策略。

使用此數(shù)據(jù)集評估性能可以揭示推理能力是單獨提高算法問題解決的成功率,還是擴展到更實際的、與行業(yè)相關(guān)的編碼任務。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

上圖中的pass@1,表示首次嘗試成功完成任務的概率;平均分數(shù),代表了通過的測試用例的平均比例。

結(jié)果顯示,與GPT-4o相比,o1-preview的pass@1提高了 9.98%,平均分提高了6.03分。

而RL進一步微調(diào)可以提升o1的性能,其pass@1為63.92%,比o1-preview提高了3.03%;平均得分為 75.80。

這些指標證明了o1增強的推理和適應性,使其能夠有效地處理復雜的、與行業(yè)相關(guān)的軟件開發(fā)任務。

SWE-benchSWE-bench由普林斯頓大學NLP團隊開發(fā),而SWE-bench Verified是OpenAI的preparedness團隊經(jīng)過人工驗證的SWE-bench的子集。

它可以更可靠地評估AI模型解決實際軟件問題的能力。

這組經(jīng)過驗證的500個任務,修復了SWE-bench的某些問題,如正確解決方案的不正確評分、未指定的問題陳述以及過于具體的單元測試這有助于確;鶞蕼y試準確地對模型功能進行分級。

所有模型都嘗試5次來生成候選patch。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

如上圖所示,與GPT-4o相比,o1-preview在SWE-bench上的性能提高了 8.1%,展示了推理能力的顯著進步。

通過在訓練期間應用額外的RL計算,o1進一步改進了8.6%。

值得注意的是,訓練計算資源比o1多得多的o3,比o1改進了22.8%,“非常impressive”。

這些結(jié)果表示,推理模型對軟件工程等實際任務,也有很大適用性和使用價值。

One More ThingOpenAI員工表示,一張梗圖可以很好地總結(jié)這篇論文。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

略顯遺憾的是,OpenAI這篇新作雖然掛在了arXiv上,但更像是報告而非論文因為整篇論文沒怎么透露方法細節(jié),光曬成績單了。

但其中所寫還是引起了網(wǎng)友的感慨:

任何可以測量的東西,都將得到改善。

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設計測試時推理策略,無需人類干預

論文直通車:https://arxiv.org/pdf/2502.06807

參考鏈接:[1https://x.com/arankomatsuzaki/status/1889522974467957033[2]https://x.com/iScienceLuvr/status/1889517116816244995[3]https://x.com/jennywxiao/status/1889517249033281631

贊助本站

相關(guān)熱詞: openai ioi 論文 模型 編程 金牌

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港