精品国产18久久久久久,最新国产在线拍揄自揄视频

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-09 10:17:12 瀏覽：121次

導(dǎo)讀：新智元報(bào)道編輯：編輯部JHYZ【新智元導(dǎo)讀】就在剛剛，AIME 2025 I數(shù)學(xué)競(jìng)賽的大模型參賽結(jié)果出爐，o3-mini取得78%的最好成績(jī)，DeepSeek R1拿到了65%，取得第四名。然而一位教授卻發(fā)現(xiàn)，某些1.5B小模型竟也能拿到50%，莫非真的存在數(shù)據(jù)集污染？大語(yǔ)言模型，到底是學(xué)會(huì)了解決數(shù)學(xué)問題，還是只是背下了答案？LLM的「Generalize VS Memorize」之爭(zhēng)，迎來最新進(jìn)展。蘇黎世聯(lián)邦理工的 ......

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

新智元報(bào)道

編輯：編輯部JHYZ【新智元導(dǎo)讀】就在剛剛，AIME 2025 I數(shù)學(xué)競(jìng)賽的大模型參賽結(jié)果出爐，o3-mini取得78%的最好成績(jī)，DeepSeek R1拿到了65%，取得第四名。然而一位教授卻發(fā)現(xiàn)，某些1.5B小模型竟也能拿到50%，莫非真的存在數(shù)據(jù)集污染？大語(yǔ)言模型，到底是學(xué)會(huì)了解決數(shù)學(xué)問題，還是只是背下了答案？

LLM的「Generalize VS Memorize」之爭(zhēng)，迎來最新進(jìn)展。

蘇黎世聯(lián)邦理工的研究員Mislav Balunovi，在X上公布了一眾頂級(jí)AI推理模型在AIME 2025 I比賽中的結(jié)果。

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

其中，o3-mini (high)令人印象非常深刻，以非常低的成本解決了78%的問題。

DeepSeek-R1，則解決了65%的問題，而且它的蒸餾變體也表現(xiàn)不錯(cuò)，不愧是領(lǐng)先的開源模型！

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

綠色表示問題的解答率超過75%，黃色表示解答率在25%-75%之間，紅色表示解答率低于25%

然而，結(jié)果真的是這樣嗎？

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

AI做出奧數(shù)題，只因原題已在網(wǎng)上泄露？

威斯康星大學(xué)麥迪遜分校教授，目前在微軟擔(dān)任研究員的Dimitris Papailiopoulos，對(duì)這一測(cè)試的結(jié)果提出了質(zhì)疑。

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

教授表示，自己對(duì)AI模型在數(shù)學(xué)題上取得的進(jìn)步，非常驚訝。

原本他以為，一些較小的蒸餾模型遇到這些題就寄了，沒想到它們卻拿到了25%到50%的分?jǐn)?shù)。

這可太令人意外了！

要知道，如果這些題完全是新的，模型在訓(xùn)練過程中從未見過，按理說小模型能拿0分以上的分?jǐn)?shù)就很好了。

一個(gè)1.5B參數(shù)的模型連三位數(shù)的相乘都做不出，結(jié)果卻能做出奧數(shù)題，這合理嗎？

這就不由得讓人懷疑，其中有什么問題了。

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

AIME I是指2025年首場(chǎng)美國(guó)邀請(qǐng)數(shù)學(xué)考試，學(xué)生們需要在三個(gè)小時(shí)內(nèi)挑戰(zhàn)15道難題您猜怎么著？教授在用OpenAI Deep Research搜索之后發(fā)現(xiàn)，AIME 2025第1題，在Quora上就有「原題」！ o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

而且這還真不是巧合，教授再次使用Deep Research查找了第3題。結(jié)果呢？一個(gè)非常相似的問題出現(xiàn)在 math.stackexchange 上： o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

仍然感到懷疑的教授，用DeepResearch繼續(xù)查找了第7題。然后就發(fā)現(xiàn)，一個(gè)完全相同的問題，出現(xiàn)在2023年佛羅里達(dá)在線數(shù)學(xué)公開賽第9題中。 o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

接下來，教授放棄了，因?yàn)閜值已經(jīng)低到不行了。他發(fā)出詰問：這對(duì)數(shù)學(xué)基準(zhǔn)意味著什么？對(duì)RL的突飛猛進(jìn)又意味著什么？教授表示自己并不確定，但他也不排除GRPO（一種強(qiáng)化學(xué)習(xí)優(yōu)化策略）在強(qiáng)化了模型記憶的同時(shí)，也提高了它數(shù)學(xué)技能的可能性。至少，這件事表明了一點(diǎn)：數(shù)據(jù)凈化很難。永遠(yuǎn)不要低估你在互聯(lián)網(wǎng)上能找到的東西。幾乎所有東西都能在網(wǎng)上找到。網(wǎng)友們也表示，雖然數(shù)學(xué)奧賽每年都會(huì)出新題，但根本無(wú)法100%保證之前沒有同樣的問題出現(xiàn)過。 o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

還有好奇的網(wǎng)友也來搜索了一把。其中，問題6似乎有原題，問題8和問題10都有略微相似的題型。 o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

難道真如網(wǎng)友Noorie所言「數(shù)據(jù)去污才是新的Scaling Law」？ o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

什么是MathArena？

MathArena是一個(gè)用于評(píng)估大模型在最新數(shù)學(xué)競(jìng)賽和奧林匹克競(jìng)賽中的表現(xiàn)的平臺(tái)。它的核心使命便是，對(duì)LLM在「未見過的數(shù)學(xué)問題」上的推理能力和泛化能力進(jìn)行嚴(yán)格評(píng)估。為了確保評(píng)估的公平性和數(shù)據(jù)的純凈性，研究人員僅在模型發(fā)布后進(jìn)行競(jìng)賽測(cè)試，避免使用可能泄漏的或預(yù)先訓(xùn)練的材料進(jìn)行回溯評(píng)估。 o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜

通過標(biāo)準(zhǔn)化評(píng)估，MathArena能夠確保模型的得分可以實(shí)際比較，而不會(huì)受到模型提供方特定評(píng)估設(shè)置的影響。與此同時(shí)，研究人員會(huì)為每個(gè)競(jìng)賽發(fā)布一個(gè)排行榜，顯示不同模型在各個(gè)單獨(dú)問題上的得分。此外，他們還將公開一個(gè)主表格，展示各個(gè)模型在所有競(jìng)賽中的整體表現(xiàn)。為公平評(píng)估模型的表現(xiàn)，針對(duì)每個(gè)問題，每個(gè)模型均會(huì)進(jìn)行4次重復(fù)評(píng)估，最后計(jì)算出平均得分以及模型運(yùn)行成本（以美元計(jì)）。參考資料：https://x.com/mbalunovic/status/1887962694659060204https://matharena.ai/https://x.com/DimitrisPapail/status/1887977460664352795https://olympiads.us/past-exams/2025-aime-i

相關(guān)熱詞： 新智元 deep 新智丘成桐模型 r1

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-09 10:17:12 瀏覽：121次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-09 10:17:12 瀏覽：121次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

o3-mini數(shù)學(xué)推理暴打DeepSeek-R1？AIME 2025初賽曝?cái)?shù)據(jù)集污染大瓜
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-09 10:17:12 瀏覽：121次