展會(huì)信息港展會(huì)大全

讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-06 07:53:11   瀏覽:232次  

導(dǎo)讀:新智元報(bào)道編輯:LRS【新智元導(dǎo)讀】人工智能工具正在幫助科研人員快速整合和理解大量科學(xué)文獻(xiàn),但完全自動(dòng)化的高質(zhì)量文獻(xiàn)綜述生成仍面臨挑戰(zhàn),雖然能提升研究效率,但也存在生成低質(zhì)量綜述的風(fēng)險(xiǎn),需謹(jǐn)慎使用,所以說(shuō)現(xiàn)階段還是人眼看論文靠譜。網(wǎng)絡(luò)的普及,加上文獻(xiàn)數(shù)量的爆炸式增長(zhǎng),如今的科研人員要面臨的一個(gè)主要難題就是,盡管可能已經(jīng)收集了足夠的數(shù)據(jù)來(lái)幫助理解某個(gè)復(fù) ......

讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

新智元報(bào)道

編輯:LRS【新智元導(dǎo)讀】人工智能工具正在幫助科研人員快速整合和理解大量科學(xué)文獻(xiàn),但完全自動(dòng)化的高質(zhì)量文獻(xiàn)綜述生成仍面臨挑戰(zhàn),雖然能提升研究效率,但也存在生成低質(zhì)量綜述的風(fēng)險(xiǎn),需謹(jǐn)慎使用,所以說(shuō)現(xiàn)階段還是人眼看論文靠譜。網(wǎng)絡(luò)的普及,加上文獻(xiàn)數(shù)量的爆炸式增長(zhǎng),如今的科研人員要面臨的一個(gè)主要難題就是,盡管可能已經(jīng)收集了足夠的數(shù)據(jù)來(lái)幫助理解某個(gè)復(fù)雜的領(lǐng)域或系統(tǒng),但由于信息量的巨大,人類無(wú)法全面地閱讀和理解所有文獻(xiàn)。就像是面對(duì)一個(gè)巨大的圖書館,雖然每本書都包含了寶貴的知識(shí),但沒(méi)有人能夠閱讀所有的書籍并從中獲得一個(gè)完整的認(rèn)知。讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

因此,盡管科學(xué)的進(jìn)步為我們提供了大量的數(shù)據(jù),但如何有效地整合和理解這些數(shù)據(jù)仍然是一個(gè)亟待解決的問(wèn)題。最近Nature上有一篇專欄文章,介紹了一些現(xiàn)有的、文獻(xiàn)綜述自動(dòng)化生成的方法,并指出了這類方法主要面臨的困境及用戶痛點(diǎn)。讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

文章鏈接:https://www.nature.com/articles/d41586-024-03676-9盡管身處ChatGPT時(shí)代,但想要完全沒(méi)有人類參與,讓AI「一鍵」完成系統(tǒng)性綜述生成,集查詢、整理、文獻(xiàn)篩選、總結(jié)歸納等于一身,并且沒(méi)有幻覺(jué)錯(cuò)誤,仍然是一項(xiàng)不可能完成的任務(wù)。

用AI做文獻(xiàn)綜述

幾十年來(lái),研究人員們一直在嘗試提升「將大量相關(guān)研究匯編成綜述」的速度,由于工作量過(guò)大,很多綜述在提交的時(shí)候往往就已經(jīng)過(guò)時(shí)了。ChatGPT等大模型展現(xiàn)出的超強(qiáng)語(yǔ)言理解能力,也再次激發(fā)了人們對(duì)于自動(dòng)化綜述的興趣,今年9月,美國(guó)初創(chuàng)公司FutureHouse構(gòu)建了一個(gè)新系統(tǒng),宣稱能夠在幾分鐘內(nèi)生成一個(gè)比維基百科更準(zhǔn)確的科學(xué)知識(shí)綜合頁(yè)面,并且已經(jīng)為大約17,000個(gè)人類基因(human gene)生成了維基百科風(fēng)格的條目,其中大部分在此前缺乏詳細(xì)的描述介紹。讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

一些科學(xué)文獻(xiàn)搜索引擎也已經(jīng)開(kāi)始引入AI驅(qū)動(dòng)能力,來(lái)幫助用戶通過(guò)查找、排序和總結(jié)出版物來(lái)制作敘述性文獻(xiàn)綜述,但目前質(zhì)量普遍比較低。大多數(shù)研究人員都認(rèn)可,離實(shí)現(xiàn)自動(dòng)化「金標(biāo)準(zhǔn)綜述」還有很長(zhǎng)的路要走,整個(gè)過(guò)程涉及嚴(yán)格的程序來(lái)搜索和評(píng)估論文,還包括元分析來(lái)合成結(jié)果,或許10年、甚至100年后才能略有進(jìn)展。

計(jì)算機(jī)輔助評(píng)審

幾十年來(lái),計(jì)算機(jī)軟件一直在輔助研究人員搜索和解析研究文獻(xiàn)。早在大型語(yǔ)言模型(LLMs)出現(xiàn)之前,科學(xué)家們就開(kāi)始使用機(jī)器學(xué)習(xí)和其他算法來(lái)幫助識(shí)別特定研究,或快速?gòu)恼撐闹刑崛“l(fā)現(xiàn),但類似ChatGPT這樣的大模型讓自動(dòng)綜述的能力顯著提升。不過(guò),研究人員表示,要求ChatGPT或其他AI聊天機(jī)器人從頭開(kāi)始撰寫學(xué)術(shù)文獻(xiàn)綜述,是相當(dāng)不現(xiàn)實(shí)的。如果模型被要求對(duì)某個(gè)主題的研究進(jìn)行綜述,LLM可能會(huì)從一些可信的學(xué)術(shù)研究、不準(zhǔn)確的博客中,或是其他未知的信息來(lái)源中整合信息,而不會(huì)對(duì)最相關(guān)、最高質(zhì)量的文獻(xiàn)進(jìn)行權(quán)衡。LLMs的運(yùn)行機(jī)制,即通過(guò)反復(fù)生成對(duì)查詢?cè)诮y(tǒng)計(jì)上合理的單詞,決定了模型對(duì)同一個(gè)問(wèn)題會(huì)生成不同的答案,并「幻想」出一些錯(cuò)誤信息,比如眾所周知的「不存在」的學(xué)術(shù)引用,和人類進(jìn)行綜述的過(guò)程可以說(shuō)是毫無(wú)相似之處。讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

一個(gè)更復(fù)雜的過(guò)程是檢索增強(qiáng)生成(RAG),包括將預(yù)先選定的論文語(yǔ)料庫(kù)上傳到LLM,并要求模型從中提取關(guān)鍵點(diǎn),并基于這些研究給出答案,可以在一定程度上減少幻覺(jué)現(xiàn)象,但無(wú)法完全消滅幻覺(jué)。RAG的過(guò)程中,還可以設(shè)置信息來(lái)源,類似Consensus和Elicit等專門的、AI驅(qū)動(dòng)的科學(xué)搜索引擎就是這樣做的,雖然大多數(shù)公司沒(méi)有透露系統(tǒng)工作的確切細(xì)節(jié),但大體上就是將用戶的問(wèn)題轉(zhuǎn)化為對(duì)學(xué)術(shù)數(shù)據(jù)庫(kù)(如Semantic Scholar和PubMed)的搜索,并返回最相關(guān)的結(jié)果;谒阉鹘Y(jié)果,大型語(yǔ)言模型(LLM)會(huì)總結(jié)這些研究,并將其綜合成一個(gè)「帶引用來(lái)源」的答案,用戶可以根據(jù)具體需要選擇要引用的工作。丹麥南部大學(xué)奧登塞分校的博士后研究員Mushtaq Bilal認(rèn)為,這些工具肯定能讓提升綜述和寫作的效率,并且還自己開(kāi)發(fā)了一個(gè)工具Research Kick。至少搜索引擎引用的內(nèi)容是絕對(duì)真實(shí)存在的,用戶可以進(jìn)一步點(diǎn)擊查看,自己分辨。不同的輔助工具有不同的特點(diǎn),例如Scite系統(tǒng)可以快速生成支持或反駁某個(gè)主張的論文的詳細(xì)分解,Elicit等系統(tǒng)可以從論文的不同部分提取間接(方法、結(jié)論等)。讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

大多數(shù)AI科學(xué)搜索引擎不能全自動(dòng)地生成準(zhǔn)確的文獻(xiàn)綜述,其輸出更像是「一個(gè)本科生通宵達(dá)旦,然后總結(jié)出幾篇論文的主要觀點(diǎn)」,所以研究人員最好使用這些工具來(lái)優(yōu)化綜述過(guò)程中的部分環(huán)節(jié)。但這種工具還有一些缺點(diǎn),例如只能搜索開(kāi)放獲取的論文和摘要,而非文章的全文,Elicit搜索約1.25億篇論文,Consensus包含超過(guò)2億篇。大部分研究文獻(xiàn)都處于付費(fèi)墻后,而且搜索大量全文計(jì)算量很大,讓AI應(yīng)用運(yùn)行數(shù)百萬(wàn)篇文章的全部文本將需要很多時(shí)間,計(jì)算成本也會(huì)非常高。

系統(tǒng)性綜述仍然很難

敘述性地總結(jié)文獻(xiàn)已經(jīng)非常難了,如果想把相關(guān)工作系統(tǒng)性地綜述更是難上加難,一個(gè)專業(yè)的研究人員也需要花費(fèi)數(shù)月甚至數(shù)年才能完成。根據(jù)Glasziou團(tuán)隊(duì)的分析,系統(tǒng)綜述包括至少25個(gè)仔細(xì)的步驟,在梳理文獻(xiàn)后,研究人員必須從長(zhǎng)列表中篩選出最相關(guān)的論文,然后提取數(shù)據(jù),過(guò)濾出可能存在偏見(jiàn)的研究,并綜合結(jié)果。這些步驟通常還需要另一位研究人員進(jìn)行重復(fù),以檢查不一致性。在ChatGPT出現(xiàn)之前,Glasziou開(kāi)始嘗試創(chuàng)造科學(xué)界的世界紀(jì)錄:在兩周內(nèi)完成一篇系統(tǒng)綜述。Glasziou和其他幾位同事,包括Marshall和Thomas,已經(jīng)開(kāi)發(fā)了計(jì)算機(jī)工具來(lái)提高效率,當(dāng)時(shí)可用的軟件包括RobotSearch,能夠快速?gòu)囊幌盗醒芯恐凶R(shí)別出隨機(jī)試驗(yàn);RobotReviewer可以幫助評(píng)估研究是否存在因?yàn)槲闯浞置せa(chǎn)生偏見(jiàn)的風(fēng)險(xiǎn)。第一次嘗試最終總共用了九個(gè)工作日;后來(lái)團(tuán)隊(duì)又將該記錄縮短到了五天。這個(gè)過(guò)程還能變得更快嗎?讓AI一鍵寫系統(tǒng)性綜述,難!Nature專欄:ChatGPT遠(yuǎn)遠(yuǎn)不夠,一百年以后再看看

Elicit是一家專注于幫助研究人員進(jìn)行系統(tǒng)綜述而不僅僅是敘述性綜述的公司,但該工具并不提供一鍵式系統(tǒng)綜述,而是自動(dòng)化其中某些步驟,包括篩選論文和提取數(shù)據(jù)等。大多數(shù)使用Elicit進(jìn)行系統(tǒng)綜述的研究人員都會(huì)上傳使用其他搜索引擎找到的相關(guān)論文,但用戶普遍擔(dān)心這類工具可能無(wú)法滿足研究的兩個(gè)基本標(biāo)準(zhǔn):透明度和可復(fù)制性。如果不理解具體的算法,那就不算是系統(tǒng)綜述,而只是一篇簡(jiǎn)單的綜述文章。今年早些時(shí)候,Glasziou團(tuán)隊(duì)成員Clark領(lǐng)導(dǎo)了一項(xiàng)系統(tǒng)綜述,研究了使用生成式AI工具輔助系統(tǒng)綜述的研究,最終團(tuán)隊(duì)只找到了15項(xiàng)已發(fā)表的研究,并將AI的性能與人進(jìn)行充分對(duì)比。這些尚未發(fā)表或同行評(píng)審的結(jié)果表明,這些AI系統(tǒng)可以從上傳的研究中提取一些數(shù)據(jù),并評(píng)估臨床試驗(yàn)的偏差風(fēng)險(xiǎn),F(xiàn)有的模型在閱讀和評(píng)估論文方面似乎做得還不錯(cuò),但在所有其他任務(wù)上表現(xiàn)得非常糟糕,包括設(shè)計(jì)和進(jìn)行完善徹底的文獻(xiàn)搜索。

潛在風(fēng)險(xiǎn)

自動(dòng)化信息合成也伴隨著風(fēng)險(xiǎn)。研究人員多年來(lái)就知道許多系統(tǒng)評(píng)價(jià)存在冗余或質(zhì)量差等問(wèn)題,而人工智能可能會(huì)使這些問(wèn)題變得更糟;作者可能會(huì)有意或無(wú)意地使用人工智能工具來(lái)快速完成不遵循嚴(yán)格程序或包含低質(zhì)量工作的評(píng)審,并得到誤導(dǎo)性的結(jié)果。除了綜述別人的工作外,Glasziou表示,這類模型還可以促使研究人員快速檢查以前發(fā)表的文獻(xiàn),找出其中的錯(cuò)誤,來(lái)繼續(xù)提高研究人員的水平。甚至在未來(lái),人工智能工具可以通過(guò)尋找P-hacking等明顯跡象來(lái)幫助標(biāo)記和過(guò)濾掉質(zhì)量較差的論文。Glasziou將這種情況視為一種平衡:人工智能工具可以幫助科學(xué)家做出高質(zhì)量的評(píng)審,但也可能會(huì)讓部分研究者快速生成不合格的論文,目前還不知道會(huì)對(duì)出版的文獻(xiàn)產(chǎn)生什么影響。有些研究者認(rèn)為,合成和理解世界知識(shí)的能力不應(yīng)僅僅掌握在不透明的營(yíng)利性公司手中,希望未來(lái)可以看到非營(yíng)利組織構(gòu)建并仔細(xì)測(cè)試人工智能工具,小心謹(jǐn)慎地,盡可能保證每次提供的答案都是正確的。參考資料:https://www.nature.com/articles/d41586-024-03676-9

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港