展會信息港展會大全

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-21 19:45:38   瀏覽:271次  

導(dǎo)讀:在 OpenAI “十二連發(fā)”活動的最后一天,新一代推理模型 o3 終于壓軸登場!CEO 山姆奧特曼(Sam Altman)在直播中宣布了新一代 o3 家族的誕生,包括 o3 和 o3-mini 兩個版本,這是對今年早些時候發(fā)布的 o1 模型的全面升級。圖 | OpenAI 直播演示 o3(來源:OpenAI)至于中間的 o2 哪去了,奧特曼在直播中幽默地承認(rèn):“秉承著 OpenAI 一貫取名特別糟糕的傳統(tǒng),我們把它命名為 o ......

在 OpenAI “十二連發(fā)”活動的最后一天,新一代推理模型 o3 終于壓軸登場!

CEO 山姆奧特曼(Sam Altman)在直播中宣布了新一代 o3 家族的誕生,包括 o3 和 o3-mini 兩個版本,這是對今年早些時候發(fā)布的 o1 模型的全面升級。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | OpenAI 直播演示 o3(來源:OpenAI)

至于中間的 o2 哪去了,奧特曼在直播中幽默地承認(rèn):“秉承著 OpenAI 一貫取名特別糟糕的傳統(tǒng),我們把它命名為 o3! 當(dāng)然,真實原因是為了避免與英國電信服務(wù)商 O2 可能產(chǎn)生的商標(biāo)糾紛。

目前,o3和 o3-mini 尚未對公眾廣泛開放。OpenAI 計劃首先向安全研究人員開放測試權(quán)限。奧特曼表示,o3-mini 將于明年 1 月底推出,并在不久后發(fā)布 o3。

根據(jù) OpenAI 目前公布的信息,o3 展現(xiàn)出了前所未有的性能,不過在高算力設(shè)置下,單個任務(wù)的計算成本也是相當(dāng)高昂(數(shù)千美元)。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | o 系列模型的性能與成本對比(來源:ARC-AGI/OpenAI)

在多項基準(zhǔn)測試中,o3 不僅超越了前輩 o1,更是幾乎是碾壓所有其他主流 AI 模型。

例如,在 2024 年 AIME 美國數(shù)學(xué)邀請賽考試中,o3 僅做錯一道題,取得了 96.7%的高分。

在研究生水平的生物、物理和化學(xué)問題集 GPQA Diamond 測試中,該模型取得了 87.7%的成績。這意味著,面對此類科學(xué)知識,它的水平已經(jīng)接近專業(yè)研究生水平。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | o 系列模型的 AIME 和 GPQA Diamond 成績(來源:OpenAI)

在 SWE-bench Verified 編程能力測試中,o3 實現(xiàn)了 71.7%的準(zhǔn)確率,而 o1 只有 48.9%。

另外在 Competition Code 測試中,o3 取得了 2727 Elo 的高分,超越 o1 900 多分。與人類相比,在測試中拿到 2400 分就已經(jīng)超越了 99%的人類工程師,o3 的分?jǐn)?shù)能在人類里排第 150 名。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | o 系列模型的編程測試成績(來源:OpenAI)

更令人矚目的是,在 EpochAI 的 FrontierMath 數(shù)學(xué)難題基準(zhǔn)測試中,o3 解決了25.2%的問題,而在此前的研究中,其他所有模型的成績甚至都未能超過2%。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | o3 在 FrontierMath 測試中的成績(來源:OpenAI)

FrontierMath 包含的數(shù)學(xué)難題是陶哲軒等數(shù)十位數(shù)學(xué)家共同設(shè)計的,旨在評估 AI 模型的高級推理能力,其中包含了目前數(shù)學(xué)研究中的主要細(xì)分領(lǐng)域,全都是難度極高的數(shù)學(xué)挑戰(zhàn)。

面對這些問題,頂尖人類數(shù)學(xué)家可能需要數(shù)小時,甚至數(shù)天的時間才能解決,但 o3 最快只需要幾分鐘。人們原本認(rèn)為這些難題可以在很長一段時間里難住 AI,但 o3 在處理復(fù)雜數(shù)學(xué)問題方面的跨越式進(jìn)步,讓許多人驚訝不已。

o3 的另一項重要突破是在 ARC-AGI 基準(zhǔn)測試中的表現(xiàn)。這是一項自 2019 年創(chuàng)建以來一直未被攻克的視覺推理基準(zhǔn)測試,用于評估 AI 系統(tǒng)能否在訓(xùn)練數(shù)據(jù)之外高效地獲取新技能。

在高算力設(shè)置下,o3 取得了 87.5%的成績,超過了人類 85%的平均水平。即使在低算力設(shè)置下,它也取得了 75.7%的成績,是 o1 性能的三倍。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

(來源:ARC-AGI/X)

ARC Prize 基金會主席格雷格卡姆拉特(Greg Kamradt)對此評價道:“看到這些結(jié)果,我不得不重新思考AI的能力極限!

ARC-AGI 測試主要考察 AI 模型是否能像人類一樣掌握圖形變換的規(guī)律,很多問題人類可以依靠直覺輕易解決,卻難倒了一大批 AI。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | ARC-AGI 測試題(來源:ARC-AGI)

在這一點上,o3超越人類分?jǐn)?shù)的意義重大,因為它暗示著AI系統(tǒng)在推理能力方面可能已經(jīng)接近甚至超越人類水平,也是實現(xiàn)通用人工智能(AGI)道路上的重要突破。

o3 等推理模型的特點在于其“思維鏈”技術(shù)。與傳統(tǒng) AI 模型不同,推理模型會在回應(yīng)之前進(jìn)行“思考”,通過一系列行動來規(guī)劃和推導(dǎo)解決方案。

這個過程類似于人類在解決復(fù)雜問題時的思考方式,模型會暫停、考慮相關(guān)提示,并在過程中“解釋”其推理過程。雖然這個過程會比普通模型多花幾秒到幾分鐘的時間,但換來的是在物理和數(shù)學(xué)等領(lǐng)域更可靠的表現(xiàn)。

新發(fā)布的 o3-mini 則引入了“自適應(yīng)思考時間”功能。用戶可以在低、中、高三種運算能力之間進(jìn)行選擇,通過調(diào)整模型的“思考時間”來平衡性能和效率。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | o3-mini 系列的編程性能和成本對比(來源:OpenAI)

計算能力越高,模型的思考時間就越長,表現(xiàn)就越出色。這種靈活性使得用戶可以根據(jù)具體需求和資源限制來選擇最適合的運算模式。

不過,這些突破性進(jìn)展也伴隨著潛在風(fēng)險。

安全測試人員發(fā)現(xiàn),o1 的推理能力使其比傳統(tǒng)的“非推理”模型更容易試圖欺騙人類用戶,這種情況甚至超過了 Meta、Anthropic 和谷歌等公司的領(lǐng)先 AI 模型。

性能更強(qiáng)的 o3 是否會表現(xiàn)出更高的欺騙傾向,還有待OpenAI的紅隊合作伙伴發(fā)布測試結(jié)果。

為此,OpenAI 表示其正在使用“審慎對齊(deliberative alignment)”技術(shù)來確保 o 系列模型符合其安全原則,并在一項新研究中詳細(xì)介紹了這項成果(論文在文末鏈接)。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

(來源:OpenAI)

據(jù) OpenAI 介紹,審慎對齊訓(xùn)練采用了基于過程和基于結(jié)果的監(jiān)督相結(jié)合的方式:

我們首先訓(xùn)練一個 o 模型以提供實用性,但不需要任何與安全相關(guān)的數(shù)據(jù)。

然后,我們構(gòu)建一個[提示,完成](prompt, completion)對數(shù)據(jù)集,其中完成中的思維鏈引用規(guī)范。我們通過在系統(tǒng)提示中插入每個對話的相關(guān)安全規(guī)范文本、生成模型完成,然后從數(shù)據(jù)中刪除系統(tǒng)提示來實現(xiàn)這一點。

我們對該數(shù)據(jù)集執(zhí)行增量監(jiān)督微調(diào)(SFT,supervised fine-tuning),為模型提供強(qiáng)大的安全推理先驗。通過 SFT,模型可以學(xué)習(xí)我們的安全規(guī)范的內(nèi)容以及如何對其進(jìn)行推理以生成一致的響應(yīng)。

最后,我們使用強(qiáng)化學(xué)習(xí)來訓(xùn)練模型,使其更有效地使用其思維鏈。為此,我們采用了一個可以訪問安全策略的獎勵模型來提供額外的獎勵信號。

OpenAI o3模型壓軸登場,攻破極難數(shù)學(xué)題,執(zhí)行一次任務(wù)數(shù)千美元

圖 | 主流 AI 模型的安全性對比(來源:OpenAI)

與 AI 模型安全有關(guān)的新研究努力都是值得鼓勵的。

在 o3 發(fā)布之際,AI 推理模型領(lǐng)域正掀起一股前所未有的競爭熱潮。深度學(xué)習(xí)研究公司DeepSeek 在 11 月推出了其首個推理模型 DeepSeek-R1,阿里巴巴的千問團(tuán)隊也發(fā)布了開源推理模型 QwQ。

谷歌等科技巨頭也在積極布局這一領(lǐng)域,試圖在這場技術(shù)革命中占據(jù)有利位置。這股推理模型熱潮的興起,部分源于傳統(tǒng)的“暴力”擴(kuò)展模型方法已經(jīng)難以帶來顯著改進(jìn),促使研究人員開始探索新的技術(shù)路徑。

然而,并非所有人都認(rèn)為推理模型是最佳發(fā)展方向,尤其是這類模型需要大量計算資源,運行成本高昂。

根據(jù) ARC-AGI 的說法,o3 模型在高算力設(shè)置下運行單個任務(wù)的成本高達(dá)數(shù)千美元(超過 3400 美元),即使在低算力設(shè)置下也要十美元左右。

此外,盡管最新的推理模型目前在基準(zhǔn)測試上表現(xiàn)出色,但它們能否保持這種進(jìn)步速度還存在不確定性。

值得一提的是,o3 的發(fā)布恰逢 OpenAI 的重要科學(xué)家阿萊克拉德福德(Alec Radford)宣布離職。作為開創(chuàng)性 GPT 系列生成式 AI 模型(包括 GPT-3、GPT-4 等)學(xué)術(shù)論文的主要作者,拉德福德表示他將投身獨立研究。

這一人事變動引發(fā)了業(yè)界對 OpenAI 未來發(fā)展方向的關(guān)注,也讓人們開始思考 AI 領(lǐng)域的人才流動可能帶來的影響。

目前,o3 和 o3-mini 尚未對外廣泛開放,所以它們的真實表現(xiàn)尚未可知。如果真如 OpenAI 宣傳的這樣,那么我們離實現(xiàn) AGI 還有多遠(yuǎn)呢?

參考資料:

https://arstechnica.com/information-technology/2024/12/openai-announces-o3-and-o3-mini-its-next-simulated-reasoning-models/

https://www.theverge.com/2024/12/20/24326036/openai-o1-o2-o3-reasoning-model-testing

https://techcrunch.com/2024/12/20/openai-announces-new-o3-model/

https://arcprize.org/blog/oai-o3-pub-breakthrough

https://openai.com/index/deliberative-alignment/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港