展會(huì)信息港展會(huì)大全

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-29 13:22:21   瀏覽:280次  

導(dǎo)讀:機(jī)器之心報(bào)道編輯:佳琪、蛋醬翻車,但微翻,翻了 12.5% 吧。前幾天,OpenAI 已經(jīng)完成了 12 連更的最后一更  如外界所料,是新的推理系列模型 o3 和 o3-mini 。從 o1 開始,OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實(shí)現(xiàn) AGI 的希望。此次被用來驗(yàn)證 o3 推理能力的基準(zhǔn)是 ARC-AGI,這項(xiàng)基準(zhǔn)已經(jīng)提出了 5 年時(shí)間,但一直未被攻克。而新模型 o3 是首個(gè)突破 ARC-AGI ......

機(jī)器之心報(bào)道

編輯:佳琪、蛋醬

翻車,但微翻,翻了 12.5% 吧。

前幾天,OpenAI 已經(jīng)完成了 12 連更的最后一更  如外界所料,是新的推理系列模型 o3 和 o3-mini 。

從 o1 開始,OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實(shí)現(xiàn) AGI 的希望。此次被用來驗(yàn)證 o3 推理能力的基準(zhǔn)是 ARC-AGI,這項(xiàng)基準(zhǔn)已經(jīng)提出了 5 年時(shí)間,但一直未被攻克。

而新模型 o3 是首個(gè)突破 ARC-AGI 基準(zhǔn)的 AI 模型:最低性能可達(dá) 75.7%,如果讓其使用更多計(jì)算資源思考更長時(shí)間,甚至可以達(dá)到 87.5% 的水平。

對(duì)于 o1 來說,此前在這項(xiàng)基準(zhǔn)中能達(dá)到的準(zhǔn)確率僅在 25% 到 32% 之間。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

在 ARC-AGI 基準(zhǔn)中,AI 需要根據(jù)配對(duì)的「輸入 - 輸出」示例尋找規(guī)律,然后再基于一個(gè)輸入預(yù)測輸出。ARC-AGI 發(fā)起者、Keras 之父 Franois Chollet 在測試報(bào)告中表示,雖然成本高昂,但仍然表明新任務(wù)的性能確實(shí)隨著計(jì)算量的增加而提高。o3 在低計(jì)算量模式下每個(gè)任務(wù)需要 17-20 美元,高計(jì)算量模式下每個(gè)任務(wù)數(shù)千美元。但這些數(shù)字不僅僅是將暴力計(jì)算應(yīng)用于基準(zhǔn)測試的結(jié)果。OpenAI 的新 o3 模型代表了人工智能適應(yīng)新任務(wù)的能力的重大飛躍。

「這不僅僅是漸進(jìn)式的改進(jìn),而是真正的突破,標(biāo)志著與 LLM 之前的局限性相比,人工智能能力發(fā)生了質(zhì)的轉(zhuǎn)變。o3 能夠適應(yīng)以前從未遇到過的任務(wù),可以說在 ARC-AGI 領(lǐng)域接近人類水平的表現(xiàn)!

比如,對(duì)于同一道題,Llama 系列的模型就會(huì)因?yàn)閰?shù)量的提高,從而推測出更加準(zhǔn)確的答案。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

但大家也注意到了,在 ARC-AGI 的 400 個(gè)任務(wù)中,還有 34 個(gè)任務(wù)是 o3 無法解決的,即使思考了 16 小時(shí)也沒能給出正確答案。正如 Franois Chollet 所說:「事實(shí)上,我認(rèn)為 o3 還不是 AGI。o3 在一些非常簡單的任務(wù)上仍然失敗,這表明其與人類智能存在根本差異!

這些任務(wù)是什么,難點(diǎn)又在哪里,接下來讓我們一起看看。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

人們驚訝于 o3 無法解決它(沒有看到嘗試)。實(shí)際上,這些樣本可能沒有詳細(xì)說明,并且 o3 的第一個(gè)解決方案是正確的。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

這個(gè)任務(wù)是整個(gè)數(shù)據(jù)集中唯一一個(gè)模型無法輸出網(wǎng)格的樣本  在某些列上添加了錯(cuò)誤的額外方塊。在 ARC 上,使用較小的 LLM 時(shí)經(jīng)常會(huì)看到這種情況。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

這個(gè)題目看似簡單,其實(shí)很有挑戰(zhàn)性。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

o3 的第一次嘗試就是完全照搬了輸入,啥都沒改,相當(dāng)于在答題卡上照抄了一遍題干。

這也能理解,對(duì)于一個(gè)只能一維思考的模型來說,識(shí)別二維物體確實(shí)很難。Franois Chollet 表示,之前就發(fā)現(xiàn)過一維推理的局限性,有意思的是,如果在第二次嘗試時(shí)給大語言模型看旋轉(zhuǎn)或翻轉(zhuǎn)后的題目,它們的表現(xiàn)會(huì)明顯提升。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

這道題主要考驗(yàn)空間思維能力,不像其他題目那樣需要對(duì)網(wǎng)格做復(fù)雜的改動(dòng),不過也不影響最后做錯(cuò)的結(jié)果......

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

這次算是一個(gè)不錯(cuò)的嘗試  雖然還是出了點(diǎn)問題。有意思的是,在輸出第二個(gè)答案時(shí),o3 雖然做了一堆推理,最后卻只是簡單畫了幾條重復(fù)的線(這明顯不對(duì))。說實(shí)話,感覺它就像是「算了算了,我不玩了!」

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

測試樣本比訓(xùn)練樣本大得多,這一點(diǎn)很有意思。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

可以看到,和標(biāo)準(zhǔn)答案相比,o3 的結(jié)果不僅一點(diǎn)邊都沒沾上,第二次還直接「擺爛了」,交了白卷。

Franois Chollet 指出:「這恐怕是最不理想的一次測試案例。模型的表現(xiàn)難以解釋,o3 似乎在這里直接放棄了嘗試。不過還不確定這是否是因?yàn)榈谝淮文P鸵呀?jīng)意識(shí)到自己的錯(cuò)誤,從而觸發(fā)了 OpenAI 預(yù)設(shè)的某種機(jī)制。」

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

每一行都是正確的,但在整個(gè)網(wǎng)格上卻錯(cuò)位了。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

o3 在兩個(gè)答案中都漏了一些行、列。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

o3 對(duì)俄羅斯方塊類型的題完全沒招,我們可以在前面的任務(wù) [1acc24af] 中看到同樣的情況。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

這兩次,o3 都在答案中少生成了一行?磥,它很難記住還有多少相同重復(fù)的行要輸出。

一道題燒幾千美元,OpenAI新模型o3:這34道題我真不會(huì)

參考鏈接:https://x.com/mikb0b/status/1870622741029941545

https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks

贊助本站

相關(guān)熱詞: openai agi 模型 機(jī)器之心 arc

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港