国产亚洲精品a等一页,久久精品亚洲中文字幕无码,国产一区二区三区乱码

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 19:02:11 瀏覽：175次

導(dǎo)讀：2小時(shí)內(nèi)，Claude和o1就能超過人類專家平均科研水平。甚至AI還會(huì)偷摸兒“作弊”（doge）。事情是這樣的人類 VS AI科研能力大比拼，也有新的評(píng)估基準(zhǔn)了。代號(hào)“RE-Bench”，由非營(yíng)利研究機(jī)構(gòu)METR推出，目的是搞清：當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。注意看，一聲令下之后，AI和50多位人類專家開始暗自較勁：前2小時(shí)，基于Claude 3.5 Sonnet和o1-preview構(gòu)建的A ......

2小時(shí)內(nèi)，Claude和o1就能超過人類專家平均科研水平。

甚至AI還會(huì)偷摸兒“作弊”（doge）。事情是這樣的

人類 VS AI科研能力大比拼，也有新的評(píng)估基準(zhǔn)了。

代號(hào)“RE-Bench”，由非營(yíng)利研究機(jī)構(gòu)METR推出，目的是搞清：當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。

注意看，一聲令下之后，AI和50多位人類專家開始暗自較勁：

前2小時(shí)，基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent（智能體）表現(xiàn)遠(yuǎn)超人類。

但拐點(diǎn)過后，AI能力增速（在8小時(shí)內(nèi)）卻始終追不上人類。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

時(shí)間拉得更長(zhǎng)（至32小時(shí)）之后，研究得出結(jié)論，目前AI智能體更適合并行處理大量獨(dú)立短實(shí)驗(yàn)。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

看完上述結(jié)果，知名預(yù)測(cè)師Eli Lifland認(rèn)為這“顯著縮短”了他關(guān)于AGI的時(shí)間表（連續(xù)兩年將2027年作為中位數(shù)），由此也在Reddit引起熱議。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

上也有人表示，AI自動(dòng)搞科研可能對(duì)推動(dòng)爆炸性經(jīng)濟(jì)增長(zhǎng)至關(guān)重要。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

甚至有人腦洞大開，開始美滋滋暢想躺著賺錢的生活(doge)：

以后AI智能體來做科研，然后雇一群人類寫代碼……

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

AI更適合大量并行短時(shí)間任務(wù)，長(zhǎng)期科研還得靠人類在RE-Bench上，研究對(duì)比了基于大語言模型構(gòu)建的Agent（目前主要公布了Claude 3.5 Sonnet、o1-preview）和50+人類專家的科研能力。

值得注意的是，這些專家都有強(qiáng)大機(jī)器學(xué)習(xí)背景，其中很多人在頂級(jí)行業(yè)實(shí)驗(yàn)室或機(jī)器學(xué)習(xí)博士項(xiàng)目中工作。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

一番PK后，研究得出了以下主要結(jié)論：

2小時(shí)內(nèi)，Claude和o1表現(xiàn)遠(yuǎn)超人類專家。但隨著時(shí)間增加，人類專家的能力提升更顯著；

在提交新解決方案的速度上，AI是人類專家的十倍以上，且偶爾能找到非常成功的解決方案；

在編寫高效GPU內(nèi)核方面，AI表現(xiàn)超越所有人類；

AI的運(yùn)行成本遠(yuǎn)低于人類專家；

……

總之一句話，不僅AI和人類各有所長(zhǎng)，且不同AI都有自己最佳的科研節(jié)奏。

人類更適應(yīng)更復(fù)雜、更長(zhǎng)時(shí)間的科研，AI更適應(yīng)大量并行短任務(wù)。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

回到研究起點(diǎn)，METR之所以提出RE-Bench主要是發(fā)現(xiàn)：雖然很多政府和公司都在強(qiáng)調(diào)，AI智能體能否自動(dòng)研發(fā)是一項(xiàng)關(guān)鍵能力。但問題是：

現(xiàn)有的評(píng)估往往側(cè)重于短期、狹窄的任務(wù)，并且缺乏與人類專家的直接比較。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

因此，RE-Bench想做的事兒，就是全面評(píng)估AI科研所需的技能。本次研究一共提出了7項(xiàng)：

高效編程：特別是在優(yōu)化算法和內(nèi)核函數(shù)（如GPU內(nèi)核）方面；

機(jī)器學(xué)習(xí)理論與實(shí)踐：熟悉機(jī)器學(xué)習(xí)模型的訓(xùn)練、調(diào)優(yōu)和評(píng)估，包括神經(jīng)網(wǎng)絡(luò)架構(gòu)、超參數(shù)選擇和性能優(yōu)化；

數(shù)據(jù)處理與分析；

創(chuàng)新思維：能夠在面對(duì)復(fù)雜問題時(shí)提出新的方法和策略，以及跨領(lǐng)域思考；

技術(shù)設(shè)計(jì)：能夠設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜的系統(tǒng)和解決方案，包括軟件架構(gòu)和研究流程；

問題解決；

自動(dòng)化與工具開發(fā)：能夠開發(fā)和使用自動(dòng)化工具來加速研究流程；

這些任務(wù)被設(shè)計(jì)在≤8小時(shí)內(nèi)，以便人類專家可以使用合理的計(jì)算資源完成，從而實(shí)現(xiàn)人類與AI的直接比較。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

而且主辦方特意提醒，要想獲得高分，就必須最大化利用計(jì)算資源來完成這些復(fù)雜任務(wù)。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

通常來說，RE-Bench的運(yùn)行機(jī)制如下：

首先，7項(xiàng)任務(wù)都是一個(gè)獨(dú)立的評(píng)估環(huán)境，各自都有一個(gè)清晰的目標(biāo)，比如優(yōu)化一個(gè)GPU內(nèi)核或者調(diào)整一個(gè)機(jī)器學(xué)習(xí)模型的超參數(shù)。

為了確保任務(wù)的可比性，每個(gè)環(huán)境都提供了一個(gè)參考解決方案，這個(gè)解決方案是有效的，但效率較低，為Agent和人類專家提供了一個(gè)基準(zhǔn)點(diǎn)。

AI和人類專家都可以訪問這些環(huán)境，并且都有權(quán)限使用所需的計(jì)算資源，如GPU。

然后，AI通過自然語言處理和編程能力來執(zhí)行任務(wù)，而人類專家則通過編碼和實(shí)驗(yàn)來完成任務(wù)。

執(zhí)行結(jié)束后，每個(gè)環(huán)境都有一個(gè)評(píng)分函數(shù)，用于衡量Agent或人類專家提交的解決方案的效果。

當(dāng)然，評(píng)分函數(shù)會(huì)根據(jù)解決方案的性能給出一個(gè)數(shù)值得分，這個(gè)得分隨后會(huì)被歸一化，以便于在不同環(huán)境之間進(jìn)行比較。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

需要注意，過程中還涉及時(shí)間預(yù)算分配（time budget）。實(shí)際情況是，人類專家通常被分配8小時(shí)來完成任務(wù)，而AI則根據(jù)實(shí)驗(yàn)設(shè)計(jì)在不同的時(shí)間限制下進(jìn)行評(píng)估。

舉個(gè)例子，對(duì)AI來說，8小時(shí)的預(yù)算可以用于一次8小時(shí)的嘗試，也可以分成16次、每次30分鐘的嘗試。

最后，由于在任務(wù)執(zhí)行過程中，研究會(huì)收集AI和人類專家的解決方案日志，以及它們的得分記錄。因此最終將根據(jù)這些記錄來評(píng)估不同參與者的進(jìn)步和表現(xiàn)。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

實(shí)驗(yàn)結(jié)果顯示，在2小時(shí)內(nèi)，基于Claude 3.5 Sonnet和o1-preview構(gòu)建的智能體表現(xiàn)遠(yuǎn)超人類。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

更具體來看，如果不取多次運(yùn)行中的最佳結(jié)果（每個(gè)單獨(dú)繪制8小時(shí)運(yùn)行），AI最初比人類進(jìn)步更快，但提高分?jǐn)?shù)的速度較慢。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

擴(kuò)大時(shí)間線來看，整體上人類專家在較少的長(zhǎng)時(shí)間嘗試中表現(xiàn)更佳，而AI則從大量并行、獨(dú)立的短時(shí)間嘗試中受益。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

令人印象深刻的是，盡管大多數(shù)AI只能輕微改進(jìn)參考解決方案，但一個(gè)o1-preview智能體在優(yōu)化Triton內(nèi)核運(yùn)行時(shí)間的任務(wù)中超越了人類專家的最佳解決方案。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

與此同時(shí)，評(píng)估過程中甚至發(fā)現(xiàn)了AI存在“作弊”行為。例如，o1-preview智能體在應(yīng)該減少訓(xùn)練腳本運(yùn)行時(shí)間的任務(wù)中，編寫了只是復(fù)制最終輸出的代碼。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

來自非營(yíng)利研究機(jī)構(gòu)METR以上這項(xiàng)新的基準(zhǔn)出自METR，作為一家非營(yíng)利研究機(jī)構(gòu)，他們主要通過實(shí)證測(cè)試評(píng)估可能對(duì)社會(huì)造成災(zāi)難性危害的AI系統(tǒng)。

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

目前，RE-Bench只包含7項(xiàng)任務(wù)，基準(zhǔn)的劣勢(shì)也很明顯：

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

而且還伴隨著一個(gè)老生常談的問題：

一旦7項(xiàng)任務(wù)公開，如何防止基準(zhǔn)測(cè)試數(shù)據(jù)污染問題？

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

對(duì)此，METR特別提出了幾項(xiàng)措施，來避免將這些任務(wù)包含在LLM訓(xùn)練數(shù)據(jù)中，并防止過擬合。

用戶應(yīng)避免發(fā)布未受保護(hù)的解決方案，以減少過擬合的風(fēng)險(xiǎn)；

用戶不應(yīng)將評(píng)估材料提供給可能用于訓(xùn)練的API或服務(wù)；

評(píng)估材料不應(yīng)用于訓(xùn)練或提高前沿模型的能力，除非是為了開發(fā)或?qū)嵤┪ｋU(xiǎn)能力評(píng)估；

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類

更多細(xì)節(jié)歡迎查閱原論文。

相關(guān)熱詞： claude 科研機(jī)器學(xué)習(xí) doge 智能

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 19:02:11 瀏覽：175次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 19:02:11 瀏覽：175次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

限定120分鐘科研挑戰(zhàn)，o1和Claude表現(xiàn)超越人類
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-25 19:02:11 瀏覽：175次