研究人員創(chuàng)造了一個純粹的AI科學(xué)家,從查閱文獻到撰寫論文,它可以實現(xiàn)科研全流程自動化。但對于AI在科研過程中的使用,科學(xué)家仍有不同觀點。
撰文 | 郭瑞東
隨著人工智能(AI)的進步,越來越多的研究者嘗試在科研過程的每一步嘗試引入AI,而對于能否使用AI取代科學(xué)家展開研究,學(xué)界存在激烈的爭論。日前,日本創(chuàng)業(yè)公司Sakana AI創(chuàng)造出一個純粹的人工智能科學(xué)家,他們將其命名為THE AI SCIENTIST(以下稱AI Scientist),能夠以每篇10美元的成本,7*24小時持續(xù)工作。該成果目前發(fā)布在arXiv預(yù)印本平臺[1]。
圖1 AI scientist的工作流程丨圖源:參考文獻[1]
基于大語言模型(LLM)的AI Scientist是一個端對端的完整工作流(如圖1所示),目前只能從事機器學(xué)習(xí)的相關(guān)研究。AI Scientist從產(chǎn)生新的研究議題開始,它會在網(wǎng)上搜索相關(guān)文獻,并根據(jù)新穎性對研究思路進行排名。在實驗階段,AI Scientist可根據(jù)生成的研究思路自動編寫代碼并執(zhí)行,負(fù)責(zé)代碼審核的部分(智能體)會確保生成的代碼不包含無關(guān)研究思路的內(nèi)容,以減緩大模型幻覺帶來的影響(大模型幻覺即生成的內(nèi)容看似邏輯通暢,但不符合已有知識)。之后AI Scientist會根據(jù)代碼運行的結(jié)果迭代優(yōu)化實驗。如果實驗?zāi)艿玫矫枋鰧嶒灲Y(jié)果的圖表,AI Scientist會進行論文文稿的撰寫。
AI Scientist以機器學(xué)習(xí)領(lǐng)域頂會NeurIPS發(fā)布語言模型類研究為模板,使用大模型Claude 3.5、GPT-4及開源的Deepseek coder和Llama-3.1,各自產(chǎn)生了52個研究思路;在之后的新穎性審查中,少部分研究由于不具備創(chuàng)新性被去除,又有部分研究思路無法通過實驗驗證(大模型編程能力有限),最終只有不到一半的研究最終完成論文撰寫。最后,由大模型驅(qū)動的評審智能體自動生成對文稿的審稿意見和打分(表1中Mean Score項)。在成本方面,使用DeepSeek Coder模型生成每篇論文的成本僅需要10美元。
在這項研究中,作者論證了AI評審智能體給論文評審和人類專家針對2022年ICML(機器學(xué)習(xí)頂會)的評審具有相關(guān)性,且AI評審智能體對 AI Scientist 論文的評分,達到了過往發(fā)表在機器學(xué)習(xí)頂會論文的均值。這似乎說明Al Scientist生成了頂會級的研究。
該研究中所有由AI生成的論文稿件、評審意見及代碼均已公開。這樣的開放性使得其他研究者能夠分析 AI Scientist 的結(jié)果。所以在研究公布后,有人就發(fā)現(xiàn)它存在“人氣偏差”,偏愛引用次數(shù)高的論文。
表1 AI scientist在語言模型領(lǐng)域自動生成論文過程的評估結(jié)果
對于這項研究,艾倫人工智能研究所(Allen Institute for AI)的計算機科學(xué)家Tom Hope指出,“當(dāng)前除了基本的流行用語膚淺組合之外,它無法制定新穎和有用的科學(xué)方向。”同時也由于當(dāng)前大模型的能力限制,很多研究思路最終無法自動化地進行實驗。然而即使 AI 無法在短期內(nèi)完成更具創(chuàng)造性的研究,它仍然可以自動化地執(zhí)行具有重復(fù)性的工作。此外,AI Scientist的作者指出,由于大模型幻覺的存在,對于AI生成的論文需要人工審核其代碼及結(jié)果,以避免AI生成的代碼以改變約束條件的方式來達成目標(biāo),或循環(huán)調(diào)用導(dǎo)致程序崩潰。
這項研究初步論證了AI有可能獨立產(chǎn)生科學(xué)發(fā)現(xiàn)。盡管目前該系統(tǒng)只能用于機器學(xué)習(xí)領(lǐng)域,但一些科學(xué)家認(rèn)為其前景光明,勞倫斯伯克利國家實驗室的材料科學(xué)家 Gerbrand Ceder 說:“我毫不懷疑這是大部分科學(xué)的發(fā)展方向。”AI Scientist的多智能體協(xié)作科研的模式,也可能適用于其他研究領(lǐng)域,這也是該論文指出的其未來研究方向。
雖然AI自動化地完成科學(xué)研究全過程,但目前的進展還不足以說明AI能夠取代科學(xué)家獨立開展研究。在實際工作中,現(xiàn)在科研人員更多的是將大模型當(dāng)作科研助手,將AI用于科研過程的某一部分:相對成功的應(yīng)用是在化學(xué)領(lǐng)域(通過大模型驅(qū)動的機械臂自動進行實驗發(fā)現(xiàn)新材料),以及將大模型與符號主義相結(jié)合用于數(shù)學(xué)定理的自動化證明[2, 3]。
而對于AI如何在科學(xué)研究的各項任務(wù)中輔助研究者,近期一項研究給出了更加審慎的結(jié)論[4]。
該研究通過4項心理學(xué)實驗考察ChatGPT在科研領(lǐng)域的4種能力,分別為整理科研文獻,生成科研數(shù)據(jù),預(yù)測新穎的科研思路以及審核科研過程是否符合倫理規(guī)范。研究發(fā)現(xiàn),由于大模型幻覺的存在,GPT-3.5和GPT-4分別有36.0%和5.4%的時間生成虛構(gòu)的參考文獻(盡管GPT-4承認(rèn)其進行了虛構(gòu)),說明這兩種大模型不適合進行文獻整理的工作。GPT-3.5和GPT-4能夠復(fù)制在大型語料庫中先前發(fā)現(xiàn)的文化偏見模式,所以ChatGPT可以模擬生成符合已知結(jié)果的數(shù)據(jù)。然而對于訓(xùn)練數(shù)據(jù)中不存在的新內(nèi)容方面,兩種大模型都不成功;并且在預(yù)測更新穎與較不新穎的結(jié)果時,都沒有顯著利用新信息,這說明大模型不擅長產(chǎn)生新的研究數(shù)據(jù)在推斷訓(xùn)練數(shù)據(jù)之外的事物方面能力有限。不過,GPT-4被證明能夠檢測到像數(shù)據(jù)操縱(p-hacking)或違反開放協(xié)議等學(xué)術(shù)不端行為,表明AI有成為一個合格的科研倫理審查者的潛力。
這項研究帶給學(xué)者的啟示是,大模型在輔助科研領(lǐng)域的能力可能不一定符合預(yù)設(shè)。例如人們會認(rèn)為擅長處理文本的大模型能夠整理文獻,然而由于幻覺的存在,事實并非如此;且文獻整理也不僅僅是羅列相關(guān)研究,而是搭建有清晰邏輯的認(rèn)知框架。而大模型在審核研究是否符合倫理規(guī)范上表現(xiàn)較為優(yōu)秀,考慮到一般情況下認(rèn)為大模型缺少批判性思維,這一結(jié)果可能出乎一些人的意料。預(yù)期和實際結(jié)果的差距突顯了用于科研的AI所具有的復(fù)雜性,值得科研人員進一步研究。
除此之外,科研人員在使用大模型時,尤其要注意大模型有可能會生成不存在的數(shù)據(jù)。前述的AI Scientist在進行自動化研究時,出現(xiàn)過這樣的情況:當(dāng)代碼無法達到預(yù)期的評價指標(biāo)時,它不是試圖在下一輪迭代時修改代碼,而是降低評價指標(biāo)使代碼看起來合格。無獨有偶,根據(jù)此前報道[5],ChatGPT能夠按照使用者的要求,創(chuàng)建沒有真實原始數(shù)據(jù)支持的數(shù)據(jù)集,該數(shù)據(jù)集可與現(xiàn)有證據(jù)相反或研究方向不同。對此,微生物學(xué)家和獨立科研誠信顧問Elisabeth Bik表示:“這將非常容易讓研究人員對不存在的患者進行虛假的數(shù)據(jù)測量,對問卷調(diào)查制作假答案,或生成關(guān)于動物實驗的大型數(shù)據(jù)集。”
這些案例提醒人們在引入大模型協(xié)助科研時,需要注意大模型會虛構(gòu)數(shù)據(jù),尤其是當(dāng)使用大模型驅(qū)動的智能體自動化展開研究時,需要科研人員去打開黑盒而非盲目信任大模型的結(jié)果。
上述的幾項研究,從不同學(xué)科為切入點,討論了將大模型引入科學(xué)研究所帶來的機遇和風(fēng)險?紤]到科研活動自身的復(fù)雜性及不同學(xué)科的異質(zhì)性,對于如何更好地在科研過程中用好AI,需要分學(xué)科分別進行討論?蒲羞^程不可避免地包含很多重復(fù)性的操作,將這些重復(fù)步驟自動化,能解放科研人員的寶貴時間,有助于他們聚焦于科學(xué)問題。從這一方面來說,AI作為輔助工具具有廣闊的應(yīng)用前景。然而由于其能力的多變,其使用方法還需要系統(tǒng)性地摸索和考察。
人們無需擔(dān)心AI的引入會取代科學(xué)家,但AI無疑在改變科研全流程的方方面面。
參考文獻
[1]https://doi.org/10.48550/arXiv.2408.06292
[2]https://www.nature.com/articles/d41586-023-03956-w
[3]https://www.nature.com/articles/d41586-024-02441-2
[4]https://www.pnas.org/doi/10.1073/pnas.2404328121
[5]https://www.nature.com/articles/d41586-023-03635-w