中文字幕熟妇在线观看,久久精品国产亚洲αv忘忧草,chinese老太性视频bbw

OpenAI o3 碾壓式 AI 數(shù)學(xué)成績遭質(zhì)疑：既當(dāng)選手又是裁判

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-20 13:19:43 瀏覽：151次

導(dǎo)讀：IT之家2025-01-20 08:00發(fā)布于湖北IT之家官方賬號IT之家 1 月 20 日消息，科技媒體 TechCrunch 昨日（1 月 19 日）發(fā)布博文，報(bào)道稱 Epoch AI 因未及時(shí)披露 OpenAI 的資助而引發(fā)爭議，其開發(fā)的數(shù)學(xué)基準(zhǔn)測試 FrontierMath 的客觀性受到質(zhì)疑。IT之家簡要介紹下 Epoch AI 組織，是主要由 Open Philanthropy 資助的非營利組織。該組織推出了 FrontierMath 基準(zhǔn)測試，通過整合專家級 ......

IT之家

2025-01-20 08:00發(fā)布于湖北IT之家官方賬號

IT之家 1 月 20 日消息，科技媒體 TechCrunch 昨日（1 月 19 日）發(fā)布博文，報(bào)道稱 Epoch AI 因未及時(shí)披露 OpenAI 的資助而引發(fā)爭議，其開發(fā)的數(shù)學(xué)基準(zhǔn)測試 FrontierMath 的客觀性受到質(zhì)疑。

IT之家簡要介紹下 Epoch AI 組織，是主要由 Open Philanthropy 資助的非營利組織。該組織推出了 FrontierMath 基準(zhǔn)測試，通過整合專家級數(shù)學(xué)問題，衡量和測試 AI 模型的數(shù)學(xué)能力。

OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基準(zhǔn)測試中，以碾壓式優(yōu)勢傲視其它模型，準(zhǔn)確率高達(dá) 25%，而其他模型得分在 2% 左右。

OpenAI o3 碾壓式 AI 數(shù)學(xué)成績遭質(zhì)疑：既當(dāng)選手又是裁判

Epoch AI 的一位承包商“Meemi”在 LessWrong 論壇上發(fā)帖稱，許多 FrontierMath 的貢獻(xiàn)者直到公開宣布時(shí)才知道 OpenAI 參與了該基準(zhǔn)搭建。

Meemi 寫道：“溝通完全不透明。我認(rèn)為 Epoch AI 應(yīng)該披露 OpenAI 的資助，承包商在選擇是否參與基準(zhǔn)測試工作時(shí)，應(yīng)該獲得關(guān)于其工作成果可能被用于能力提升的透明信息。”

六位參與 FrontierMath 基準(zhǔn)測試設(shè)計(jì)的數(shù)學(xué)家表示，他們并不知道 OpenAI 擁有獨(dú)家訪問權(quán)限。如果事先知道，他們可能不會(huì)參與。

一些社交媒體用戶擔(dān)心，這種保密行為可能會(huì)損害 FrontierMath 作為客觀基準(zhǔn)的聲譽(yù)。除了資助 FrontierMath 之外，OpenAI 還可以訪問該基準(zhǔn)測試中的許多問題和解決方案 Epoch AI 在 12 月 20 日 o3 發(fā)布之前并未透露這一事實(shí)。

OpenAI o3 碾壓式 AI 數(shù)學(xué)成績遭質(zhì)疑：既當(dāng)選手又是裁判

Epoch AI 副主任兼聯(lián)合創(chuàng)始人之一 Tamay Besiroglu 在回復(fù) Meemi 的帖子時(shí)堅(jiān)稱，F(xiàn)rontierMath 的完整性沒有受到損害，但也承認(rèn) Epoch AI 在未能更加透明方面“犯了一個(gè)錯(cuò)誤”。

AI 專家 Gary Marcus 質(zhì)疑 OpenAI 的聲明，將此事件與 Theranos 丑聞相提并論。IT之家注：該丑聞是由伊麗莎白·霍爾姆斯創(chuàng)立的血液檢測公司 Theranos 的欺詐事件，該公司聲稱其技術(shù)只需幾滴血就能進(jìn)行數(shù)百項(xiàng)檢測，但最后謊言被揭穿，公司最終倒閉，霍爾姆斯也被判犯有欺詐罪。

Besiroglu 承認(rèn) OpenAI 可以訪問 FrontierMath 的大部分問題和答案，但有一個(gè)“OpenAI 未見過的保留數(shù)據(jù)集”用于驗(yàn)證模型的能力。

Besiroglu 寫道

我們被限制在 o3 發(fā)布前后才能披露合作關(guān)系，事后看來，我們應(yīng)該更努力地爭取盡快對基準(zhǔn)測試貢獻(xiàn)者保持透明。我們的數(shù)學(xué)家應(yīng)該知道誰可以訪問他們的工作。即使我們在合同上受到限制，我們也應(yīng)該讓與貢獻(xiàn)者的透明度成為我們與 OpenAI 協(xié)議中不可協(xié)商的一部分。

相關(guān)熱詞： openai epoch frontier

OpenAI o3 碾壓式 AI 數(shù)學(xué)成績遭質(zhì)疑：既當(dāng)選手又是裁判
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-20 13:19:43 瀏覽：151次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI o3 碾壓式 AI 數(shù)學(xué)成績遭質(zhì)疑：既當(dāng)選手又是裁判 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-20 13:19:43 瀏覽：151次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI o3 碾壓式 AI 數(shù)學(xué)成績遭質(zhì)疑：既當(dāng)選手又是裁判
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-01-20 13:19:43 瀏覽：151次