當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:53:11 瀏覽：232次

導(dǎo)讀：新智元報(bào)道編輯：LRS【新智元導(dǎo)讀】人工智能工具正在幫助科研人員快速整合和理解大量科學(xué)文獻(xiàn)，但完全自動(dòng)化的高質(zhì)量文獻(xiàn)綜述生成仍面臨挑戰(zhàn)，雖然能提升研究效率，但也存在生成低質(zhì)量綜述的風(fēng)險(xiǎn)，需謹(jǐn)慎使用，所以說(shuō)現(xiàn)階段還是人眼看論文靠譜。網(wǎng)絡(luò)的普及，加上文獻(xiàn)數(shù)量的爆炸式增長(zhǎng)，如今的科研人員要面臨的一個(gè)主要難題就是，盡管可能已經(jīng)收集了足夠的數(shù)據(jù)來(lái)幫助理解某個(gè)復(fù) ......

讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

新智元報(bào)道

編輯：LRS【新智元導(dǎo)讀】人工智能工具正在幫助科研人員快速整合和理解大量科學(xué)文獻(xiàn)，但完全自動(dòng)化的高質(zhì)量文獻(xiàn)綜述生成仍面臨挑戰(zhàn)，雖然能提升研究效率，但也存在生成低質(zhì)量綜述的風(fēng)險(xiǎn)，需謹(jǐn)慎使用，所以說(shuō)現(xiàn)階段還是人眼看論文靠譜。網(wǎng)絡(luò)的普及，加上文獻(xiàn)數(shù)量的爆炸式增長(zhǎng)，如今的科研人員要面臨的一個(gè)主要難題就是，盡管可能已經(jīng)收集了足夠的數(shù)據(jù)來(lái)幫助理解某個(gè)復(fù)雜的領(lǐng)域或系統(tǒng)，但由于信息量的巨大，人類無(wú)法全面地閱讀和理解所有文獻(xiàn)。就像是面對(duì)一個(gè)巨大的圖書館，雖然每本書都包含了寶貴的知識(shí)，但沒(méi)有人能夠閱讀所有的書籍并從中獲得一個(gè)完整的認(rèn)知。讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

因此，盡管科學(xué)的進(jìn)步為我們提供了大量的數(shù)據(jù)，但如何有效地整合和理解這些數(shù)據(jù)仍然是一個(gè)亟待解決的問(wèn)題。最近Nature上有一篇專欄文章，介紹了一些現(xiàn)有的、文獻(xiàn)綜述自動(dòng)化生成的方法，并指出了這類方法主要面臨的困境及用戶痛點(diǎn)。讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

文章鏈接：https://www.nature.com/articles/d41586-024-03676-9盡管身處ChatGPT時(shí)代，但想要完全沒(méi)有人類參與，讓AI「一鍵」完成系統(tǒng)性綜述生成，集查詢、整理、文獻(xiàn)篩選、總結(jié)歸納等于一身，并且沒(méi)有幻覺(jué)錯(cuò)誤，仍然是一項(xiàng)不可能完成的任務(wù)。

用AI做文獻(xiàn)綜述

幾十年來(lái)，研究人員們一直在嘗試提升「將大量相關(guān)研究匯編成綜述」的速度，由于工作量過(guò)大，很多綜述在提交的時(shí)候往往就已經(jīng)過(guò)時(shí)了。ChatGPT等大模型展現(xiàn)出的超強(qiáng)語(yǔ)言理解能力，也再次激發(fā)了人們對(duì)于自動(dòng)化綜述的興趣，今年9月，美國(guó)初創(chuàng)公司FutureHouse構(gòu)建了一個(gè)新系統(tǒng)，宣稱能夠在幾分鐘內(nèi)生成一個(gè)比維基百科更準(zhǔn)確的科學(xué)知識(shí)綜合頁(yè)面，并且已經(jīng)為大約17,000個(gè)人類基因（human gene）生成了維基百科風(fēng)格的條目，其中大部分在此前缺乏詳細(xì)的描述介紹。讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

一些科學(xué)文獻(xiàn)搜索引擎也已經(jīng)開(kāi)始引入AI驅(qū)動(dòng)能力，來(lái)幫助用戶通過(guò)查找、排序和總結(jié)出版物來(lái)制作敘述性文獻(xiàn)綜述，但目前質(zhì)量普遍比較低。大多數(shù)研究人員都認(rèn)可，離實(shí)現(xiàn)自動(dòng)化「金標(biāo)準(zhǔn)綜述」還有很長(zhǎng)的路要走，整個(gè)過(guò)程涉及嚴(yán)格的程序來(lái)搜索和評(píng)估論文，還包括元分析來(lái)合成結(jié)果，或許10年、甚至100年后才能略有進(jìn)展。

計(jì)算機(jī)輔助評(píng)審

幾十年來(lái)，計(jì)算機(jī)軟件一直在輔助研究人員搜索和解析研究文獻(xiàn)。早在大型語(yǔ)言模型（LLMs）出現(xiàn)之前，科學(xué)家們就開(kāi)始使用機(jī)器學(xué)習(xí)和其他算法來(lái)幫助識(shí)別特定研究，或快速?gòu)恼撐闹刑崛“l(fā)現(xiàn)，但類似ChatGPT這樣的大模型讓自動(dòng)綜述的能力顯著提升。不過(guò)，研究人員表示，要求ChatGPT或其他AI聊天機(jī)器人從頭開(kāi)始撰寫學(xué)術(shù)文獻(xiàn)綜述，是相當(dāng)不現(xiàn)實(shí)的。如果模型被要求對(duì)某個(gè)主題的研究進(jìn)行綜述，LLM可能會(huì)從一些可信的學(xué)術(shù)研究、不準(zhǔn)確的博客中，或是其他未知的信息來(lái)源中整合信息，而不會(huì)對(duì)最相關(guān)、最高質(zhì)量的文獻(xiàn)進(jìn)行權(quán)衡。LLMs的運(yùn)行機(jī)制，即通過(guò)反復(fù)生成對(duì)查詢?cè)诮y(tǒng)計(jì)上合理的單詞，決定了模型對(duì)同一個(gè)問(wèn)題會(huì)生成不同的答案，并「幻想」出一些錯(cuò)誤信息，比如眾所周知的「不存在」的學(xué)術(shù)引用，和人類進(jìn)行綜述的過(guò)程可以說(shuō)是毫無(wú)相似之處。讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

一個(gè)更復(fù)雜的過(guò)程是檢索增強(qiáng)生成（RAG），包括將預(yù)先選定的論文語(yǔ)料庫(kù)上傳到LLM，并要求模型從中提取關(guān)鍵點(diǎn)，并基于這些研究給出答案，可以在一定程度上減少幻覺(jué)現(xiàn)象，但無(wú)法完全消滅幻覺(jué)。RAG的過(guò)程中，還可以設(shè)置信息來(lái)源，類似Consensus和Elicit等專門的、AI驅(qū)動(dòng)的科學(xué)搜索引擎就是這樣做的，雖然大多數(shù)公司沒(méi)有透露系統(tǒng)工作的確切細(xì)節(jié)，但大體上就是將用戶的問(wèn)題轉(zhuǎn)化為對(duì)學(xué)術(shù)數(shù)據(jù)庫(kù)（如Semantic Scholar和PubMed）的搜索，并返回最相關(guān)的結(jié)果�；谒阉鹘Y(jié)果，大型語(yǔ)言模型（LLM）會(huì)總結(jié)這些研究，并將其綜合成一個(gè)「帶引用來(lái)源」的答案，用戶可以根據(jù)具體需要選擇要引用的工作。丹麥南部大學(xué)奧登塞分校的博士后研究員Mushtaq Bilal認(rèn)為，這些工具肯定能讓提升綜述和寫作的效率，并且還自己開(kāi)發(fā)了一個(gè)工具Research Kick。至少搜索引擎引用的內(nèi)容是絕對(duì)真實(shí)存在的，用戶可以進(jìn)一步點(diǎn)擊查看，自己分辨。不同的輔助工具有不同的特點(diǎn)，例如Scite系統(tǒng)可以快速生成支持或反駁某個(gè)主張的論文的詳細(xì)分解，Elicit等系統(tǒng)可以從論文的不同部分提取間接（方法、結(jié)論等）。讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

大多數(shù)AI科學(xué)搜索引擎不能全自動(dòng)地生成準(zhǔn)確的文獻(xiàn)綜述，其輸出更像是「一個(gè)本科生通宵達(dá)旦，然后總結(jié)出幾篇論文的主要觀點(diǎn)」，所以研究人員最好使用這些工具來(lái)優(yōu)化綜述過(guò)程中的部分環(huán)節(jié)。但這種工具還有一些缺點(diǎn)，例如只能搜索開(kāi)放獲取的論文和摘要，而非文章的全文，Elicit搜索約1.25億篇論文，Consensus包含超過(guò)2億篇。大部分研究文獻(xiàn)都處于付費(fèi)墻后，而且搜索大量全文計(jì)算量很大，讓AI應(yīng)用運(yùn)行數(shù)百萬(wàn)篇文章的全部文本將需要很多時(shí)間，計(jì)算成本也會(huì)非常高。

系統(tǒng)性綜述仍然很難

敘述性地總結(jié)文獻(xiàn)已經(jīng)非常難了，如果想把相關(guān)工作系統(tǒng)性地綜述更是難上加難，一個(gè)專業(yè)的研究人員也需要花費(fèi)數(shù)月甚至數(shù)年才能完成。根據(jù)Glasziou團(tuán)隊(duì)的分析，系統(tǒng)綜述包括至少25個(gè)仔細(xì)的步驟，在梳理文獻(xiàn)后，研究人員必須從長(zhǎng)列表中篩選出最相關(guān)的論文，然后提取數(shù)據(jù)，過(guò)濾出可能存在偏見(jiàn)的研究，并綜合結(jié)果。這些步驟通常還需要另一位研究人員進(jìn)行重復(fù)，以檢查不一致性。在ChatGPT出現(xiàn)之前，Glasziou開(kāi)始嘗試創(chuàng)造科學(xué)界的世界紀(jì)錄：在兩周內(nèi)完成一篇系統(tǒng)綜述。Glasziou和其他幾位同事，包括Marshall和Thomas，已經(jīng)開(kāi)發(fā)了計(jì)算機(jī)工具來(lái)提高效率，當(dāng)時(shí)可用的軟件包括RobotSearch，能夠快速?gòu)囊幌盗醒芯恐凶R(shí)別出隨機(jī)試驗(yàn)；RobotReviewer可以幫助評(píng)估研究是否存在因?yàn)槲闯浞置せa(chǎn)生偏見(jiàn)的風(fēng)險(xiǎn)。第一次嘗試最終總共用了九個(gè)工作日；后來(lái)團(tuán)隊(duì)又將該記錄縮短到了五天。這個(gè)過(guò)程還能變得更快嗎？讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看

Elicit是一家專注于幫助研究人員進(jìn)行系統(tǒng)綜述而不僅僅是敘述性綜述的公司，但該工具并不提供一鍵式系統(tǒng)綜述，而是自動(dòng)化其中某些步驟，包括篩選論文和提取數(shù)據(jù)等。大多數(shù)使用Elicit進(jìn)行系統(tǒng)綜述的研究人員都會(huì)上傳使用其他搜索引擎找到的相關(guān)論文，但用戶普遍擔(dān)心這類工具可能無(wú)法滿足研究的兩個(gè)基本標(biāo)準(zhǔn)：透明度和可復(fù)制性。如果不理解具體的算法，那就不算是系統(tǒng)綜述，而只是一篇簡(jiǎn)單的綜述文章。今年早些時(shí)候，Glasziou團(tuán)隊(duì)成員Clark領(lǐng)導(dǎo)了一項(xiàng)系統(tǒng)綜述，研究了使用生成式AI工具輔助系統(tǒng)綜述的研究，最終團(tuán)隊(duì)只找到了15項(xiàng)已發(fā)表的研究，并將AI的性能與人進(jìn)行充分對(duì)比。這些尚未發(fā)表或同行評(píng)審的結(jié)果表明，這些AI系統(tǒng)可以從上傳的研究中提取一些數(shù)據(jù)，并評(píng)估臨床試驗(yàn)的偏差風(fēng)險(xiǎn)�，F(xiàn)有的模型在閱讀和評(píng)估論文方面似乎做得還不錯(cuò)，但在所有其他任務(wù)上表現(xiàn)得非常糟糕，包括設(shè)計(jì)和進(jìn)行完善徹底的文獻(xiàn)搜索。

潛在風(fēng)險(xiǎn)

自動(dòng)化信息合成也伴隨著風(fēng)險(xiǎn)。研究人員多年來(lái)就知道許多系統(tǒng)評(píng)價(jià)存在冗余或質(zhì)量差等問(wèn)題，而人工智能可能會(huì)使這些問(wèn)題變得更糟；作者可能會(huì)有意或無(wú)意地使用人工智能工具來(lái)快速完成不遵循嚴(yán)格程序或包含低質(zhì)量工作的評(píng)審，并得到誤導(dǎo)性的結(jié)果。除了綜述別人的工作外，Glasziou表示，這類模型還可以促使研究人員快速檢查以前發(fā)表的文獻(xiàn)，找出其中的錯(cuò)誤，來(lái)繼續(xù)提高研究人員的水平。甚至在未來(lái)，人工智能工具可以通過(guò)尋找P-hacking等明顯跡象來(lái)幫助標(biāo)記和過(guò)濾掉質(zhì)量較差的論文。Glasziou將這種情況視為一種平衡：人工智能工具可以幫助科學(xué)家做出高質(zhì)量的評(píng)審，但也可能會(huì)讓部分研究者快速生成不合格的論文，目前還不知道會(huì)對(duì)出版的文獻(xiàn)產(chǎn)生什么影響。有些研究者認(rèn)為，合成和理解世界知識(shí)的能力不應(yīng)僅僅掌握在不透明的營(yíng)利性公司手中，希望未來(lái)可以看到非營(yíng)利組織構(gòu)建并仔細(xì)測(cè)試人工智能工具，小心謹(jǐn)慎地，盡可能保證每次提供的答案都是正確的。參考資料：https://www.nature.com/articles/d41586-024-03676-9

上一篇：OpenAI最短發(fā)布會(huì)推出滿血o1，Pro會(huì)員費(fèi)1452元/月，體驗(yàn)完覺(jué)得真香

下一篇：Colossus AI超算集群要擴(kuò)至100萬(wàn)個(gè)GPU？馬斯克：不對(duì)，至少10億個(gè)！

讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:53:11 瀏覽：232次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:53:11 瀏覽：232次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

讓AI一鍵寫系統(tǒng)性綜述，難！Nature專欄：ChatGPT遠(yuǎn)遠(yuǎn)不夠，一百年以后再看看
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-06 07:53:11 瀏覽：232次