展會(huì)信息港展會(huì)大全

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-25 19:02:11   瀏覽:175次  

導(dǎo)讀:2小時(shí)內(nèi),Claude和o1就能超過人類專家平均科研水平。甚至AI還會(huì)偷摸兒“作弊”(doge)。事情是這樣的人類 VS AI科研能力大比拼,也有新的評(píng)估基準(zhǔn)了。代號(hào)“RE-Bench”,由非營(yíng)利研究機(jī)構(gòu)METR推出,目的是搞清:當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。注意看,一聲令下之后,AI和50多位人類專家開始暗自較勁:前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的A ......

2小時(shí)內(nèi),Claude和o1就能超過人類專家平均科研水平。

甚至AI還會(huì)偷摸兒“作弊”(doge)。事情是這樣的

人類 VS AI科研能力大比拼,也有新的評(píng)估基準(zhǔn)了。

代號(hào)“RE-Bench”,由非營(yíng)利研究機(jī)構(gòu)METR推出,目的是搞清:當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。

注意看,一聲令下之后,AI和50多位人類專家開始暗自較勁:

前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent(智能體)表現(xiàn)遠(yuǎn)超人類。

但拐點(diǎn)過后,AI能力增速(在8小時(shí)內(nèi))卻始終追不上人類。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

時(shí)間拉得更長(zhǎng)(至32小時(shí))之后,研究得出結(jié)論,目前AI智能體更適合并行處理大量獨(dú)立短實(shí)驗(yàn)。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

看完上述結(jié)果,知名預(yù)測(cè)師Eli Lifland認(rèn)為這“顯著縮短”了他關(guān)于AGI的時(shí)間表(連續(xù)兩年將2027年作為中位數(shù)),由此也在Reddit引起熱議。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

上也有人表示,AI自動(dòng)搞科研可能對(duì)推動(dòng)爆炸性經(jīng)濟(jì)增長(zhǎng)至關(guān)重要。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

甚至有人腦洞大開,開始美滋滋暢想躺著賺錢的生活(doge):

以后AI智能體來做科研,然后雇一群人類寫代碼……

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

AI更適合大量并行短時(shí)間任務(wù),長(zhǎng)期科研還得靠人類在RE-Bench上,研究對(duì)比了基于大語言模型構(gòu)建的Agent(目前主要公布了Claude 3.5 Sonnet、o1-preview)和50+人類專家的科研能力。

值得注意的是,這些專家都有強(qiáng)大機(jī)器學(xué)習(xí)背景,其中很多人在頂級(jí)行業(yè)實(shí)驗(yàn)室或機(jī)器學(xué)習(xí)博士項(xiàng)目中工作。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

一番PK后,研究得出了以下主要結(jié)論:

2小時(shí)內(nèi),Claude和o1表現(xiàn)遠(yuǎn)超人類專家。但隨著時(shí)間增加,人類專家的能力提升更顯著;

在提交新解決方案的速度上,AI是人類專家的十倍以上,且偶爾能找到非常成功的解決方案;

在編寫高效GPU內(nèi)核方面,AI表現(xiàn)超越所有人類;

AI的運(yùn)行成本遠(yuǎn)低于人類專家;

……

總之一句話,不僅AI和人類各有所長(zhǎng),且不同AI都有自己最佳的科研節(jié)奏。

人類更適應(yīng)更復(fù)雜、更長(zhǎng)時(shí)間的科研,AI更適應(yīng)大量并行短任務(wù)。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

回到研究起點(diǎn),METR之所以提出RE-Bench主要是發(fā)現(xiàn):雖然很多政府和公司都在強(qiáng)調(diào),AI智能體能否自動(dòng)研發(fā)是一項(xiàng)關(guān)鍵能力。但問題是:

現(xiàn)有的評(píng)估往往側(cè)重于短期、狹窄的任務(wù),并且缺乏與人類專家的直接比較。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

因此,RE-Bench想做的事兒,就是全面評(píng)估AI科研所需的技能。本次研究一共提出了7項(xiàng)

高效編程:特別是在優(yōu)化算法和內(nèi)核函數(shù)(如GPU內(nèi)核)方面;

機(jī)器學(xué)習(xí)理論與實(shí)踐:熟悉機(jī)器學(xué)習(xí)模型的訓(xùn)練、調(diào)優(yōu)和評(píng)估,包括神經(jīng)網(wǎng)絡(luò)架構(gòu)、超參數(shù)選擇和性能優(yōu)化;

數(shù)據(jù)處理與分析;

創(chuàng)新思維:能夠在面對(duì)復(fù)雜問題時(shí)提出新的方法和策略,以及跨領(lǐng)域思考;

技術(shù)設(shè)計(jì):能夠設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜的系統(tǒng)和解決方案,包括軟件架構(gòu)和研究流程;

問題解決;

自動(dòng)化與工具開發(fā):能夠開發(fā)和使用自動(dòng)化工具來加速研究流程;

這些任務(wù)被設(shè)計(jì)在≤8小時(shí)內(nèi),以便人類專家可以使用合理的計(jì)算資源完成,從而實(shí)現(xiàn)人類與AI的直接比較。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

而且主辦方特意提醒,要想獲得高分,就必須最大化利用計(jì)算資源來完成這些復(fù)雜任務(wù)。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

通常來說,RE-Bench的運(yùn)行機(jī)制如下:

首先,7項(xiàng)任務(wù)都是一個(gè)獨(dú)立的評(píng)估環(huán)境,各自都有一個(gè)清晰的目標(biāo),比如優(yōu)化一個(gè)GPU內(nèi)核或者調(diào)整一個(gè)機(jī)器學(xué)習(xí)模型的超參數(shù)。

為了確保任務(wù)的可比性,每個(gè)環(huán)境都提供了一個(gè)參考解決方案,這個(gè)解決方案是有效的,但效率較低,為Agent和人類專家提供了一個(gè)基準(zhǔn)點(diǎn)。

AI和人類專家都可以訪問這些環(huán)境,并且都有權(quán)限使用所需的計(jì)算資源,如GPU。

然后,AI通過自然語言處理和編程能力來執(zhí)行任務(wù),而人類專家則通過編碼和實(shí)驗(yàn)來完成任務(wù)。

執(zhí)行結(jié)束后,每個(gè)環(huán)境都有一個(gè)評(píng)分函數(shù),用于衡量Agent或人類專家提交的解決方案的效果。

當(dāng)然,評(píng)分函數(shù)會(huì)根據(jù)解決方案的性能給出一個(gè)數(shù)值得分,這個(gè)得分隨后會(huì)被歸一化,以便于在不同環(huán)境之間進(jìn)行比較。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

需要注意,過程中還涉及時(shí)間預(yù)算分配(time budget)。實(shí)際情況是,人類專家通常被分配8小時(shí)來完成任務(wù),而AI則根據(jù)實(shí)驗(yàn)設(shè)計(jì)在不同的時(shí)間限制下進(jìn)行評(píng)估。

舉個(gè)例子,對(duì)AI來說,8小時(shí)的預(yù)算可以用于一次8小時(shí)的嘗試,也可以分成16次、每次30分鐘的嘗試。

最后,由于在任務(wù)執(zhí)行過程中,研究會(huì)收集AI和人類專家的解決方案日志,以及它們的得分記錄。因此最終將根據(jù)這些記錄來評(píng)估不同參與者的進(jìn)步和表現(xiàn)。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

實(shí)驗(yàn)結(jié)果顯示,在2小時(shí)內(nèi),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的智能體表現(xiàn)遠(yuǎn)超人類。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

更具體來看,如果不取多次運(yùn)行中的最佳結(jié)果(每個(gè)單獨(dú)繪制8小時(shí)運(yùn)行),AI最初比人類進(jìn)步更快,但提高分?jǐn)?shù)的速度較慢。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

擴(kuò)大時(shí)間線來看,整體上人類專家在較少的長(zhǎng)時(shí)間嘗試中表現(xiàn)更佳,而AI則從大量并行、獨(dú)立的短時(shí)間嘗試中受益。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

令人印象深刻的是,盡管大多數(shù)AI只能輕微改進(jìn)參考解決方案,但一個(gè)o1-preview智能體在優(yōu)化Triton內(nèi)核運(yùn)行時(shí)間的任務(wù)中超越了人類專家的最佳解決方案。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

與此同時(shí),評(píng)估過程中甚至發(fā)現(xiàn)了AI存在“作弊”行為。例如,o1-preview智能體在應(yīng)該減少訓(xùn)練腳本運(yùn)行時(shí)間的任務(wù)中,編寫了只是復(fù)制最終輸出的代碼。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

來自非營(yíng)利研究機(jī)構(gòu)METR以上這項(xiàng)新的基準(zhǔn)出自METR,作為一家非營(yíng)利研究機(jī)構(gòu),他們主要通過實(shí)證測(cè)試評(píng)估可能對(duì)社會(huì)造成災(zāi)難性危害的AI系統(tǒng)。

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

目前,RE-Bench只包含7項(xiàng)任務(wù),基準(zhǔn)的劣勢(shì)也很明顯:

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

而且還伴隨著一個(gè)老生常談的問題:

一旦7項(xiàng)任務(wù)公開,如何防止基準(zhǔn)測(cè)試數(shù)據(jù)污染問題?

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

對(duì)此,METR特別提出了幾項(xiàng)措施,來避免將這些任務(wù)包含在LLM訓(xùn)練數(shù)據(jù)中,并防止過擬合。

用戶應(yīng)避免發(fā)布未受保護(hù)的解決方案,以減少過擬合的風(fēng)險(xiǎn);

用戶不應(yīng)將評(píng)估材料提供給可能用于訓(xùn)練的API或服務(wù);

評(píng)估材料不應(yīng)用于訓(xùn)練或提高前沿模型的能力,除非是為了開發(fā)或?qū)嵤┪kU(xiǎn)能力評(píng)估;

限定120分鐘科研挑戰(zhàn),o1和Claude表現(xiàn)超越人類

更多細(xì)節(jié)歡迎查閱原論文。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港