久久这里只精品国产免费99热4 ,欧美香蕉,免费国产好深啊好涨好硬视频

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-29 13:22:21 瀏覽：280次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：佳琪、蛋醬翻車，但微翻，翻了 12.5% 吧。前幾天，OpenAI 已經(jīng)完成了 12 連更的最后一更如外界所料，是新的推理系列模型 o3 和 o3-mini 。從 o1 開始，OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實(shí)現(xiàn) AGI 的希望。此次被用來驗(yàn)證 o3 推理能力的基準(zhǔn)是 ARC-AGI，這項(xiàng)基準(zhǔn)已經(jīng)提出了 5 年時(shí)間，但一直未被攻克。而新模型 o3 是首個(gè)突破 ARC-AGI ......

機(jī)器之心報(bào)道

編輯：佳琪、蛋醬

翻車，但微翻，翻了 12.5% 吧。

前幾天，OpenAI 已經(jīng)完成了 12 連更的最后一更如外界所料，是新的推理系列模型 o3 和 o3-mini 。

從 o1 開始，OpenAI 所指出的推理 Scaling Law 似乎帶來了全新的實(shí)現(xiàn) AGI 的希望。此次被用來驗(yàn)證 o3 推理能力的基準(zhǔn)是 ARC-AGI，這項(xiàng)基準(zhǔn)已經(jīng)提出了 5 年時(shí)間，但一直未被攻克。

而新模型 o3 是首個(gè)突破 ARC-AGI 基準(zhǔn)的 AI 模型：最低性能可達(dá) 75.7%，如果讓其使用更多計(jì)算資源思考更長時(shí)間，甚至可以達(dá)到 87.5% 的水平。

對(duì)于 o1 來說，此前在這項(xiàng)基準(zhǔn)中能達(dá)到的準(zhǔn)確率僅在 25% 到 32% 之間。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

在 ARC-AGI 基準(zhǔn)中，AI 需要根據(jù)配對(duì)的「輸入 - 輸出」示例尋找規(guī)律，然后再基于一個(gè)輸入預(yù)測輸出。ARC-AGI 發(fā)起者、Keras 之父 Franois Chollet 在測試報(bào)告中表示，雖然成本高昂，但仍然表明新任務(wù)的性能確實(shí)隨著計(jì)算量的增加而提高。o3 在低計(jì)算量模式下每個(gè)任務(wù)需要 17-20 美元，高計(jì)算量模式下每個(gè)任務(wù)數(shù)千美元。但這些數(shù)字不僅僅是將暴力計(jì)算應(yīng)用于基準(zhǔn)測試的結(jié)果。OpenAI 的新 o3 模型代表了人工智能適應(yīng)新任務(wù)的能力的重大飛躍。

「這不僅僅是漸進(jìn)式的改進(jìn)，而是真正的突破，標(biāo)志著與 LLM 之前的局限性相比，人工智能能力發(fā)生了質(zhì)的轉(zhuǎn)變。o3 能夠適應(yīng)以前從未遇到過的任務(wù)，可以說在 ARC-AGI 領(lǐng)域接近人類水平的表現(xiàn)�！�

比如，對(duì)于同一道題，Llama 系列的模型就會(huì)因?yàn)閰?shù)量的提高，從而推測出更加準(zhǔn)確的答案。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

但大家也注意到了，在 ARC-AGI 的 400 個(gè)任務(wù)中，還有 34 個(gè)任務(wù)是 o3 無法解決的，即使思考了 16 小時(shí)也沒能給出正確答案。正如 Franois Chollet 所說：「事實(shí)上，我認(rèn)為 o3 還不是 AGI。o3 在一些非常簡單的任務(wù)上仍然失敗，這表明其與人類智能存在根本差異�！�

這些任務(wù)是什么，難點(diǎn)又在哪里，接下來讓我們一起看看。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

人們驚訝于 o3 無法解決它（沒有看到嘗試）。實(shí)際上，這些樣本可能沒有詳細(xì)說明，并且 o3 的第一個(gè)解決方案是正確的。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

這個(gè)任務(wù)是整個(gè)數(shù)據(jù)集中唯一一個(gè)模型無法輸出網(wǎng)格的樣本在某些列上添加了錯(cuò)誤的額外方塊。在 ARC 上，使用較小的 LLM 時(shí)經(jīng)常會(huì)看到這種情況。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

這個(gè)題目看似簡單，其實(shí)很有挑戰(zhàn)性。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

o3 的第一次嘗試就是完全照搬了輸入，啥都沒改，相當(dāng)于在答題卡上照抄了一遍題干。

這也能理解，對(duì)于一個(gè)只能一維思考的模型來說，識(shí)別二維物體確實(shí)很難。Franois Chollet 表示，之前就發(fā)現(xiàn)過一維推理的局限性，有意思的是，如果在第二次嘗試時(shí)給大語言模型看旋轉(zhuǎn)或翻轉(zhuǎn)后的題目，它們的表現(xiàn)會(huì)明顯提升。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

這道題主要考驗(yàn)空間思維能力，不像其他題目那樣需要對(duì)網(wǎng)格做復(fù)雜的改動(dòng)，不過也不影響最后做錯(cuò)的結(jié)果......

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

這次算是一個(gè)不錯(cuò)的嘗試雖然還是出了點(diǎn)問題。有意思的是，在輸出第二個(gè)答案時(shí)，o3 雖然做了一堆推理，最后卻只是簡單畫了幾條重復(fù)的線（這明顯不對(duì)）。說實(shí)話，感覺它就像是「算了算了，我不玩了！」

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

測試樣本比訓(xùn)練樣本大得多，這一點(diǎn)很有意思。

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)

可以看到，和標(biāo)準(zhǔn)答案相比，o3 的結(jié)果不僅一點(diǎn)邊都沒沾上，第二次還直接「擺爛了」，交了白卷。

Franois Chollet 指出：「這恐怕是最不理想的一次測試案例。模型的表現(xiàn)難以解釋，o3 似乎在這里直接放棄了嘗試。不過還不確定這是否是因?yàn)榈谝淮文Ｐ鸵呀?jīng)意識(shí)到自己的錯(cuò)誤，從而觸發(fā)了 OpenAI 預(yù)設(shè)的某種機(jī)制。」

一道題燒幾千美元，OpenAI新模型o3：這34道題我真不會(huì)