2小時(shí)內(nèi),Claude和o1就能超過人類專家平均科研水平。
甚至AI還會(huì)偷摸兒“作弊”(doge)。事情是這樣的
人類 VS AI科研能力大比拼,也有新的評(píng)估基準(zhǔn)了。
代號(hào)“RE-Bench”,由非營(yíng)利研究機(jī)構(gòu)METR推出,目的是搞清:當(dāng)前AI智能體在自動(dòng)化科研方面有多接近人類專家水平。
注意看,一聲令下之后,AI和50多位人類專家開始暗自較勁:
前2小時(shí),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的Agent(智能體)表現(xiàn)遠(yuǎn)超人類。
但拐點(diǎn)過后,AI能力增速(在8小時(shí)內(nèi))卻始終追不上人類。
時(shí)間拉得更長(zhǎng)(至32小時(shí))之后,研究得出結(jié)論,目前AI智能體更適合并行處理大量獨(dú)立短實(shí)驗(yàn)。
看完上述結(jié)果,知名預(yù)測(cè)師Eli Lifland認(rèn)為這“顯著縮短”了他關(guān)于AGI的時(shí)間表(連續(xù)兩年將2027年作為中位數(shù)),由此也在Reddit引起熱議。
上也有人表示,AI自動(dòng)搞科研可能對(duì)推動(dòng)爆炸性經(jīng)濟(jì)增長(zhǎng)至關(guān)重要。
甚至有人腦洞大開,開始美滋滋暢想躺著賺錢的生活(doge):
以后AI智能體來做科研,然后雇一群人類寫代碼……
AI更適合大量并行短時(shí)間任務(wù),長(zhǎng)期科研還得靠人類在RE-Bench上,研究對(duì)比了基于大語言模型構(gòu)建的Agent(目前主要公布了Claude 3.5 Sonnet、o1-preview)和50+人類專家的科研能力。
值得注意的是,這些專家都有強(qiáng)大機(jī)器學(xué)習(xí)背景,其中很多人在頂級(jí)行業(yè)實(shí)驗(yàn)室或機(jī)器學(xué)習(xí)博士項(xiàng)目中工作。
一番PK后,研究得出了以下主要結(jié)論:
2小時(shí)內(nèi),Claude和o1表現(xiàn)遠(yuǎn)超人類專家。但隨著時(shí)間增加,人類專家的能力提升更顯著;
在提交新解決方案的速度上,AI是人類專家的十倍以上,且偶爾能找到非常成功的解決方案;
在編寫高效GPU內(nèi)核方面,AI表現(xiàn)超越所有人類;
AI的運(yùn)行成本遠(yuǎn)低于人類專家;
……
總之一句話,不僅AI和人類各有所長(zhǎng),且不同AI都有自己最佳的科研節(jié)奏。
人類更適應(yīng)更復(fù)雜、更長(zhǎng)時(shí)間的科研,AI更適應(yīng)大量并行短任務(wù)。
回到研究起點(diǎn),METR之所以提出RE-Bench主要是發(fā)現(xiàn):雖然很多政府和公司都在強(qiáng)調(diào),AI智能體能否自動(dòng)研發(fā)是一項(xiàng)關(guān)鍵能力。但問題是:
現(xiàn)有的評(píng)估往往側(cè)重于短期、狹窄的任務(wù),并且缺乏與人類專家的直接比較。
因此,RE-Bench想做的事兒,就是全面評(píng)估AI科研所需的技能。本次研究一共提出了7項(xiàng):
高效編程:特別是在優(yōu)化算法和內(nèi)核函數(shù)(如GPU內(nèi)核)方面;
機(jī)器學(xué)習(xí)理論與實(shí)踐:熟悉機(jī)器學(xué)習(xí)模型的訓(xùn)練、調(diào)優(yōu)和評(píng)估,包括神經(jīng)網(wǎng)絡(luò)架構(gòu)、超參數(shù)選擇和性能優(yōu)化;
數(shù)據(jù)處理與分析;
創(chuàng)新思維:能夠在面對(duì)復(fù)雜問題時(shí)提出新的方法和策略,以及跨領(lǐng)域思考;
技術(shù)設(shè)計(jì):能夠設(shè)計(jì)和實(shí)現(xiàn)復(fù)雜的系統(tǒng)和解決方案,包括軟件架構(gòu)和研究流程;
問題解決;
自動(dòng)化與工具開發(fā):能夠開發(fā)和使用自動(dòng)化工具來加速研究流程;
這些任務(wù)被設(shè)計(jì)在≤8小時(shí)內(nèi),以便人類專家可以使用合理的計(jì)算資源完成,從而實(shí)現(xiàn)人類與AI的直接比較。
而且主辦方特意提醒,要想獲得高分,就必須最大化利用計(jì)算資源來完成這些復(fù)雜任務(wù)。
通常來說,RE-Bench的運(yùn)行機(jī)制如下:
首先,7項(xiàng)任務(wù)都是一個(gè)獨(dú)立的評(píng)估環(huán)境,各自都有一個(gè)清晰的目標(biāo),比如優(yōu)化一個(gè)GPU內(nèi)核或者調(diào)整一個(gè)機(jī)器學(xué)習(xí)模型的超參數(shù)。
為了確保任務(wù)的可比性,每個(gè)環(huán)境都提供了一個(gè)參考解決方案,這個(gè)解決方案是有效的,但效率較低,為Agent和人類專家提供了一個(gè)基準(zhǔn)點(diǎn)。
AI和人類專家都可以訪問這些環(huán)境,并且都有權(quán)限使用所需的計(jì)算資源,如GPU。
然后,AI通過自然語言處理和編程能力來執(zhí)行任務(wù),而人類專家則通過編碼和實(shí)驗(yàn)來完成任務(wù)。
執(zhí)行結(jié)束后,每個(gè)環(huán)境都有一個(gè)評(píng)分函數(shù),用于衡量Agent或人類專家提交的解決方案的效果。
當(dāng)然,評(píng)分函數(shù)會(huì)根據(jù)解決方案的性能給出一個(gè)數(shù)值得分,這個(gè)得分隨后會(huì)被歸一化,以便于在不同環(huán)境之間進(jìn)行比較。
需要注意,過程中還涉及時(shí)間預(yù)算分配(time budget)。實(shí)際情況是,人類專家通常被分配8小時(shí)來完成任務(wù),而AI則根據(jù)實(shí)驗(yàn)設(shè)計(jì)在不同的時(shí)間限制下進(jìn)行評(píng)估。
舉個(gè)例子,對(duì)AI來說,8小時(shí)的預(yù)算可以用于一次8小時(shí)的嘗試,也可以分成16次、每次30分鐘的嘗試。
最后,由于在任務(wù)執(zhí)行過程中,研究會(huì)收集AI和人類專家的解決方案日志,以及它們的得分記錄。因此最終將根據(jù)這些記錄來評(píng)估不同參與者的進(jìn)步和表現(xiàn)。
實(shí)驗(yàn)結(jié)果顯示,在2小時(shí)內(nèi),基于Claude 3.5 Sonnet和o1-preview構(gòu)建的智能體表現(xiàn)遠(yuǎn)超人類。
更具體來看,如果不取多次運(yùn)行中的最佳結(jié)果(每個(gè)單獨(dú)繪制8小時(shí)運(yùn)行),AI最初比人類進(jìn)步更快,但提高分?jǐn)?shù)的速度較慢。
擴(kuò)大時(shí)間線來看,整體上人類專家在較少的長(zhǎng)時(shí)間嘗試中表現(xiàn)更佳,而AI則從大量并行、獨(dú)立的短時(shí)間嘗試中受益。
令人印象深刻的是,盡管大多數(shù)AI只能輕微改進(jìn)參考解決方案,但一個(gè)o1-preview智能體在優(yōu)化Triton內(nèi)核運(yùn)行時(shí)間的任務(wù)中超越了人類專家的最佳解決方案。
與此同時(shí),評(píng)估過程中甚至發(fā)現(xiàn)了AI存在“作弊”行為。例如,o1-preview智能體在應(yīng)該減少訓(xùn)練腳本運(yùn)行時(shí)間的任務(wù)中,編寫了只是復(fù)制最終輸出的代碼。
來自非營(yíng)利研究機(jī)構(gòu)METR以上這項(xiàng)新的基準(zhǔn)出自METR,作為一家非營(yíng)利研究機(jī)構(gòu),他們主要通過實(shí)證測(cè)試評(píng)估可能對(duì)社會(huì)造成災(zāi)難性危害的AI系統(tǒng)。
目前,RE-Bench只包含7項(xiàng)任務(wù),基準(zhǔn)的劣勢(shì)也很明顯:
而且還伴隨著一個(gè)老生常談的問題:
一旦7項(xiàng)任務(wù)公開,如何防止基準(zhǔn)測(cè)試數(shù)據(jù)污染問題?
對(duì)此,METR特別提出了幾項(xiàng)措施,來避免將這些任務(wù)包含在LLM訓(xùn)練數(shù)據(jù)中,并防止過擬合。
用戶應(yīng)避免發(fā)布未受保護(hù)的解決方案,以減少過擬合的風(fēng)險(xiǎn);
用戶不應(yīng)將評(píng)估材料提供給可能用于訓(xùn)練的API或服務(wù);
評(píng)估材料不應(yīng)用于訓(xùn)練或提高前沿模型的能力,除非是為了開發(fā)或?qū)嵤┪kU(xiǎn)能力評(píng)估;
更多細(xì)節(jié)歡迎查閱原論文。