展會信息港展會大全

數(shù)據(jù)洪流已至,AI如何助力神經(jīng)影像學(xué)研究?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-20 21:27:17   瀏覽:164次  

導(dǎo)讀:文 | 追問nextquestion在過去十年中,神經(jīng)影像學(xué)已迅速發(fā)展為一個數(shù)據(jù)密集型的“大數(shù)據(jù)”學(xué)科。隨著數(shù)據(jù)共享的普及,研究者們現(xiàn)在能夠訪問規(guī)?涨暗纳窠(jīng)影像數(shù)據(jù)。僅在2020年5月至2021年4月間,OpenNeuro平臺上就增加了406TB的數(shù)據(jù)[1]。2018年~2021年OpenNeuro平臺上的可用數(shù)據(jù)集(綠)與被試(紅)數(shù)量穩(wěn)步增長。圖源:The OpenNeuro resource for sharing of neuroscience d ......

文 | 追問nextquestion

在過去十年中,神經(jīng)影像學(xué)已迅速發(fā)展為一個數(shù)據(jù)密集型的“大數(shù)據(jù)”學(xué)科。隨著數(shù)據(jù)共享的普及,研究者們現(xiàn)在能夠訪問規(guī)?涨暗纳窠(jīng)影像數(shù)據(jù)。僅在2020年5月至2021年4月間,OpenNeuro平臺上就增加了406TB的數(shù)據(jù)[1]。

數(shù)據(jù)洪流已至,AI如何助力神經(jīng)影像學(xué)研究?

2018年~2021年OpenNeuro平臺上的可用數(shù)據(jù)集(綠)與被試(紅)數(shù)量穩(wěn)步增長。圖源:The OpenNeuro resource for sharing of neuroscience data. eLife, 10, e71774. https://doi.org/10.7554/eLife.71774

數(shù)據(jù)體量的增長,既帶來了重要機(jī)遇,也伴隨生出諸多新問題。在當(dāng)前環(huán)境下,研究者們愈發(fā)意識到加強(qiáng)數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)訓(xùn)練的必要性。盡管已經(jīng)出現(xiàn)了如Brainhack等開放科學(xué)社區(qū)以及NeuroMatch Academy等教學(xué)項目,但要應(yīng)對這些挑戰(zhàn),卻還遠(yuǎn)遠(yuǎn)不夠。

針對這一現(xiàn)狀,近年來出現(xiàn)的生成式AI(generative AI),或許有望徹底改變神經(jīng)影像學(xué)研究范式。

數(shù)據(jù)洪流已至,AI如何助力神經(jīng)影像學(xué)研究?

Elizabeth DuPre,Russell Alan Poldrack; The future of data analysis is now: Integrating generative AI in neuroimaging methods development.Imaging Neuroscience2024; 2 18. doi:https://doi.org/10.1162/imag_a_00241

01 生成式AI與神經(jīng)影像學(xué)

生成式AI結(jié)合生成模型與深度神經(jīng)網(wǎng)絡(luò),能夠根據(jù)文本或圖像提示生成新的文本、圖像和音頻。生成式AI的實(shí)際應(yīng)用中,尤其是AI輔助編程被認(rèn)為可以提高開發(fā)者的生產(chǎn)力,減少低級細(xì)節(jié)問題,節(jié)省大量時間,帶來更愉悅的編程體驗。

生成式AI將如何改變腦影像研究?我們可以以史為鑒,從數(shù)據(jù)科學(xué)的發(fā)展中一窺究竟。

1962年,約翰圖基(John Tukey)在《數(shù)據(jù)分析的未來》一書中呼吁創(chuàng)建一種系統(tǒng)化科學(xué)數(shù)據(jù)分析方法數(shù)據(jù)科學(xué)[2],他特別強(qiáng)調(diào)對自動化、標(biāo)準(zhǔn)化統(tǒng)計程序的開發(fā),以代替對個別研究者的專業(yè)知識的依賴。他警告人們:

隨著數(shù)據(jù)量的增加,大部分的數(shù)據(jù)分析工作,將由缺乏經(jīng)驗而時間有限的人力來完成;而如果未能為這些人提供相應(yīng)的工具,則會有更多數(shù)據(jù)未經(jīng)分析。

數(shù)據(jù)洪流已至,AI如何助力神經(jīng)影像學(xué)研究?

約翰圖基(John Tukey),圖源:APS

而這也正是神經(jīng)影像學(xué)面臨的困境由于缺乏專業(yè)的數(shù)據(jù)科學(xué)訓(xùn)練,分析方法在實(shí)驗室之間,甚至實(shí)驗室之內(nèi),都存在差異。

對此,研究者們開發(fā)了BIDS(Brain Imaging Data Structure)等數(shù)據(jù)標(biāo)準(zhǔn)以及Nipreps等生態(tài)系統(tǒng),在一定程度上填補(bǔ)了這些空白。Nipreps基于AFNI、FSL等軟件,在常見的功能性磁共振成像(fMRI)的預(yù)處理方法上實(shí)現(xiàn)了自動化。

Nipreps生態(tài)系統(tǒng)突顯了神經(jīng)影像學(xué)方法開發(fā)的兩大核心問題:

在尚未實(shí)現(xiàn)標(biāo)準(zhǔn)化的領(lǐng)域(如影像質(zhì)量控制),需要繼續(xù)推動分析方法的標(biāo)準(zhǔn)化;

在預(yù)處理后的數(shù)據(jù)分析階段,分析方法的選擇往往取決于特定的研究問題和任務(wù)設(shè)計,該過程需要實(shí)現(xiàn)自動化。

生成式AI,具有解決這兩大難題的巨大潛力!吧窠(jīng)AI”(NeuroAI)等方法有望對神經(jīng)科學(xué)的方法論和理論基礎(chǔ)產(chǎn)生巨大影響。僅就方法論而言,AI可能為神經(jīng)科學(xué)帶來重大變革;然而,AI也可能引發(fā)新的問題如果研究者對其認(rèn)識不足,它可能反而會阻礙領(lǐng)域的發(fā)展。

02 生成式AI與影像質(zhì)控

圖基強(qiáng)烈主張將現(xiàn)有的統(tǒng)計方法自動化。然而,這在神經(jīng)影像學(xué)中卻很難推進(jìn)。一些實(shí)驗方法尚未統(tǒng)一明確量化指標(biāo),不同研究者有各自側(cè)重的指標(biāo),因而難以實(shí)現(xiàn)自動化。

以生成實(shí)驗刺激圖片為例,雖然像MidJourney和StableDiffusion等生成式AI能夠輕松生成多種圖像,但問題在于研究人員須在有限的實(shí)驗時間內(nèi)選擇優(yōu)先考慮哪些圖像。這體現(xiàn)了神經(jīng)影像學(xué)方法自動化的復(fù)雜性:即便有了先進(jìn)的AI工具,研究人員的判斷仍然至關(guān)重要。

另一個更明顯的例子,在影像質(zhì)控時,人工檢驗仍然是金標(biāo)準(zhǔn)。在不同的科學(xué)問題中,使用的質(zhì)控方法不同。即便是人工檢驗,不同專家的質(zhì)控打分也可能有所不同。而即便存在不確定性,鑒于有待檢驗的數(shù)據(jù)量巨大,學(xué)界必須著手研發(fā)無需依賴參考圖像的質(zhì)控指標(biāo),以指導(dǎo)人工檢查及后續(xù)的機(jī)器學(xué)習(xí)。

雖然存在這些挑戰(zhàn),但我們?nèi)杂欣碛杀3謽酚^。在神經(jīng)影像預(yù)處理方面,NoBrainer和FastSurfer等方法,已經(jīng)實(shí)現(xiàn)在保持高質(zhì)量輸出的前提下,利用AI大幅減少了圖像分割等圖像任務(wù)的計算時間。AI在神經(jīng)影像數(shù)據(jù)處理中表現(xiàn)出巨大潛力。然而,現(xiàn)有的這些工具的廣泛驗證是基于大量公開可用的有標(biāo)注數(shù)據(jù)集進(jìn)行的;而到目前為止,研究者仍難以獲取大型有標(biāo)注數(shù)據(jù)集以用于驗證質(zhì)控結(jié)果。

數(shù)據(jù)洪流已至,AI如何助力神經(jīng)影像學(xué)研究?

通過眾包來增補(bǔ)現(xiàn)有的質(zhì)控標(biāo)注,是一種潛在的解決方案。Swipes for Science、Brainmatch等項目已經(jīng)成功地利用分布式公民眾包科研,生成了大量質(zhì)控標(biāo)簽。雖然這些方法潛力巨大,但AI的日益普及卻使它們的可靠性遭到質(zhì)疑。越來越多的眾包正在使用ChatGPT等工具來完成任務(wù),尤其是允許自由輸入文本的任務(wù)。如果用這些AI生成的內(nèi)容來訓(xùn)練模型,可能會造成“模型崩潰”。

近來,質(zhì)控流程演示(Demonstrating Quality Control Procedures)等諸多項目,已逐漸轉(zhuǎn)為關(guān)注標(biāo)簽生成任務(wù)本身。由此生成的質(zhì)控流程,可能反過來對未來的AI應(yīng)用至關(guān)重要。例如,生成式AI可通過增加特定標(biāo)簽的可用數(shù)據(jù)(例如“環(huán)狀偽影”),來評估評分者之間的一致性。然而,其中一些質(zhì)控程序和標(biāo)簽可能只適合特定人群,例如,用于卒中患者劃分病灶區(qū)域的方法,并不適用于健康人群。在這種情況下,有限的數(shù)據(jù)量和隱私問題可能有礙于大規(guī)模的數(shù)據(jù)標(biāo)注的實(shí)現(xiàn)。

聯(lián)邦學(xué)習(xí)(Federated Learning)等其他算法,則提供了另外一種思路通過模型共享而非數(shù)據(jù)共享的方式來訓(xùn)練聯(lián)合模型。類似地,神經(jīng)影像基礎(chǔ)模型(Neuroimaging Foundation Models)或可實(shí)現(xiàn)將經(jīng)過預(yù)訓(xùn)練的數(shù)據(jù)密集型模型遷移到小而專的數(shù)據(jù)集上。但是,重點(diǎn)是,這些范式都需要對數(shù)據(jù)進(jìn)行嚴(yán)格的標(biāo)準(zhǔn)化處理,以確保模型能遷移到不同的應(yīng)用環(huán)境中。

03 AI輔助編程在神經(jīng)影像分析中的具體應(yīng)用

在神經(jīng)影像分析環(huán)節(jié),統(tǒng)計方法的自動化也難以推進(jìn)。

部分原因在于,分析方法的多樣性。二十多年來,一階和二階廣義線性模型,一直是fMRI分析的基石;然而直到近幾年,才出現(xiàn)專門將這些常見分析整合在標(biāo)準(zhǔn)格式中的工具(例如 FitLins)。沒有標(biāo)準(zhǔn)化且可機(jī)讀的輸入和輸出結(jié)構(gòu),便難以通過AI或其他工具實(shí)現(xiàn)自動化。

標(biāo)準(zhǔn)化的廣義線性模型算法仍在開發(fā)中,其他較新的方法也大多沒有實(shí)現(xiàn)標(biāo)準(zhǔn)化。在這種情況下,研究人員需要確保他們的代碼正確執(zhí)行所需的分析。對于代碼基礎(chǔ)薄弱的研究者而言,這可能會阻礙他們探究某些科學(xué)問題,或使其得出錯誤的結(jié)論。

在這些場景中,AI輔助編程是一個頗具吸引力的解決辦法,可以像“催化劑”一樣加速研究進(jìn)程。

當(dāng)然,AI輔助編程也不是完美的,它只是將負(fù)擔(dān)從“代碼編寫”轉(zhuǎn)移到了“代碼審閱與測試”。用AI生成的代碼進(jìn)行測試,如果產(chǎn)生陰性結(jié)果,是測試的問題還是代碼的問題?代碼的輸入和輸出是否合理?這些問題仍然需要熟悉編程的研究人員來解決。

另外,雖然AI輔助編程可用于某些分析場景,如編寫大項目中的單個簡單函數(shù);但如若將其擴(kuò)展到神經(jīng)影像分析的全流程,出錯的可能性也將大大增多。研究人者缺乏單一的度量標(biāo)準(zhǔn)來對結(jié)果進(jìn)行基準(zhǔn)測試,因此很難區(qū)分AI生成的代碼是在產(chǎn)生有意義的差異,還是引入難以發(fā)現(xiàn)的錯誤。

對此,如果能獲取已有結(jié)果背后的數(shù)據(jù)和代碼,則可進(jìn)一步驗證生成的代碼:

“在AI的幫助下,可否將已有的代碼遷移到新數(shù)據(jù)上?”

“如果在原始數(shù)據(jù)上運(yùn)行生成的代碼,產(chǎn)生的結(jié)果是否和原始結(jié)果相似?”

這可為已有結(jié)果的魯棒性和可重復(fù)性提供參考,同時也能確認(rèn)新的代碼能夠復(fù)現(xiàn)相應(yīng)的分析。但是,這也有賴于已有實(shí)驗的數(shù)據(jù)和代碼是否開源。

04AI輔助工具與開放科學(xué)之間的關(guān)系

過去十年間,開放科學(xué)已成為神經(jīng)影像學(xué)方法研發(fā)的關(guān)鍵驅(qū)動力,大量的研究致力于將常見的分析流程標(biāo)準(zhǔn)化。開放科學(xué)實(shí)踐與AI輔助工具相輔相成。

那么,AI輔助工具將如何影響開放科學(xué)及其在神經(jīng)影像方法開發(fā)中的應(yīng)用?換言之,當(dāng)數(shù)據(jù)和代碼可以通過簡單的命令生成時,AI輔助工具是否會減少數(shù)據(jù)共享和代碼開源等開放科學(xué)做法?

其他領(lǐng)域的證據(jù)表明,情況恰恰相反。近期,數(shù)據(jù)科學(xué)領(lǐng)域的領(lǐng)軍人物David Donoho提出,AI的商業(yè)化成功反映了經(jīng)驗機(jī)器學(xué)習(xí)中深厚的數(shù)據(jù)科學(xué)文化。他不僅倡導(dǎo)代碼開源和數(shù)據(jù)共享,還倡導(dǎo)通過公開的預(yù)測挑戰(zhàn)等明確的方法來比較各種分析方法。

盡管預(yù)測挑戰(zhàn)在神經(jīng)影像學(xué)中難以成功,但這種通過明確的指標(biāo)評判結(jié)果的理念,對于充分利用生成式AI研發(fā)神經(jīng)影像學(xué)方法而言至關(guān)重要。如果沒有明確的結(jié)果指標(biāo),就需要強(qiáng)大的人在閉環(huán)(human-in-the-loop systems)來審核AI應(yīng)用,這與圖基倡導(dǎo)的自動化分析相悖。因此,要想在腦影像領(lǐng)域推廣生成式AI,首先要在標(biāo)準(zhǔn)化上下功夫。令人鼓舞的是,質(zhì)控流程演示(Demonstrating Quality Control Procedures)等項目,正致力于將模糊的評判標(biāo)準(zhǔn)標(biāo)準(zhǔn)化。

盡管如此,還有大量工作仍有待完成,其中包括如何使影像分析結(jié)果符合“可發(fā)現(xiàn)、可訪問、可互操作、可重復(fù)使用”的標(biāo)準(zhǔn),以便接受其他研究者的客觀評估。雖然生成式AI或能推動這一進(jìn)程(如開發(fā)新的人工標(biāo)簽示例等),但進(jìn)一步的進(jìn)展仍有賴于人類主導(dǎo)的標(biāo)準(zhǔn)化進(jìn)程。

因此,從目前學(xué)界全力研發(fā)自動化分析方法的趨勢來看,生成式AI短期內(nèi)不會取代現(xiàn)有的開放科學(xué)項目。相反,它將要求研究人員將數(shù)據(jù)和代碼公開,還要提供明確的結(jié)果,以便在實(shí)驗之間相互比較。

神經(jīng)影像分析復(fù)現(xiàn)與預(yù)測研究(Neuroimaging Analysis Replication and Prediction Study)表明,不同的研究團(tuán)隊在同樣的數(shù)據(jù)上開展相同的分析,其結(jié)果可能會相去甚遠(yuǎn)(但該研究卻并未提供一個清晰的框架用以比較各個團(tuán)隊的結(jié)果)[2]

多元宇宙樣分析(Multiverse Analysis)或更通用的“振動”分析(“Vibration” Analysis),或能校正給定實(shí)驗可能的結(jié)果范圍。理想情況下,這些校正分析可以指導(dǎo)生成公開的評判指標(biāo)。然而,目前仍然需要繼續(xù)推進(jìn)代碼和數(shù)據(jù)公開,以便開展這些校準(zhǔn)分析。這將有助于推廣新興的AI輔助方法。

05 結(jié)語

作為數(shù)據(jù)密集型領(lǐng)域,神經(jīng)影像學(xué)有賴于數(shù)據(jù)科學(xué)以取得方法上的創(chuàng)新。然而,目前大多數(shù)研究人員缺乏必要的數(shù)據(jù)科學(xué)訓(xùn)練。生成式AI工具或有助于填補(bǔ)這一缺口,但在此過程中,它需要與現(xiàn)有的神經(jīng)影像學(xué)方法研發(fā)體系相互配合,包括數(shù)據(jù)與代碼共享等開放科學(xué)理念。本文認(rèn)為,AI工具的出現(xiàn)不會取代開放科學(xué),反而會凸顯其重要性。

但這也并不意味著開放科學(xué)與基于生成式AI方法之間完美協(xié)調(diào)。例如,歐盟通用數(shù)據(jù)保護(hù)條例(The European Union’s General Data Protection Regulations)認(rèn)定去除面部的腦影像為隱私數(shù)據(jù);而在包括美國在內(nèi)的多數(shù)國家,未經(jīng)匿名化處理的腦影像也被視為隱私數(shù)據(jù)。因此,將腦影像直接發(fā)送給生成式AI工具,在多數(shù)情況下并不符合倫理標(biāo)準(zhǔn)。

AI和開放科學(xué)的其他交互則更難厘清利弊。例如,AI輔助編程將大幅度降低編程門檻,使研究人員更容易參與到研究軟件工程師社群(Research Software Engineers)等開放科學(xué)項目之中,共同開發(fā)新的方法。但由于這些項目受到的資助有限,以及開發(fā)者用以審閱代碼和維護(hù)項目的時間有限,AI輕易生成的代碼可能會帶來新的問題。

總的來說,為了利用好AI,我們需要回歸數(shù)據(jù)科學(xué)的核心原理。尤其是要開發(fā)明確的評價指標(biāo)以比較不同研究的結(jié)果,這將有望整體促進(jìn)AI輔助工具的應(yīng)用和神經(jīng)影像學(xué)方法的發(fā)展。

參考文獻(xiàn)

[1] Markiewicz, C. J., Gorgolewski, K. J., Feingold, F., Blair, R., Halchenko, Y. O., Miller, E., Hardcastle, N., Wexler, J., Esteban, O., Goncavles, M., Jwa, A., & Poldrack, R. (2021). The OpenNeuro resource for sharing of neuroscience data.eLife,10, e71774. https://doi.org/10.7554/eLife.71774

[2] Botvinik-Nezer, R., Holzmeister, F., Camerer, C. F., Dreber, A., Huber, J., Johannesson, M., Kirchler, M., Iwanir, R., Mumford, J. A., Adcock, R. A., Avesani, P., Baczkowski, B. M., Bajracharya, A., Bakst, L., Ball, S., Barilari, M., Bault, N., Beaton, D., Beitner, J., Benoit, R. G., … Schonberg, T. (2020). Variability in the analysis of a single neuroimaging dataset by many teams.Nature,582(7810), 8488. https://doi.org/10.1038/s41586-020-2314-9

更多精彩內(nèi)容,關(guān)注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港