劃重點
01DeepMind的AlphaFold2在2020年CASP競賽中預(yù)測了超過90%的蛋白質(zhì)結(jié)構(gòu),引發(fā)了科學(xué)界的關(guān)注和討論。
02然而,AlphaFold2在預(yù)測已知蛋白質(zhì)結(jié)構(gòu)的功能和準確性方面仍有局限,需要與實驗方法相結(jié)合。
03為此,其他研究團隊如貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計研究所和谷歌DeepMind正在改進他們的深度學(xué)習(xí)算法,以預(yù)測蛋白質(zhì)在與其他分子相互作用時的結(jié)構(gòu)。
04盡管如此,AlphaFold2的成功已經(jīng)改變了生物學(xué)家對人工智能的態(tài)度,激發(fā)了他們在結(jié)構(gòu)生物學(xué)領(lǐng)域的更多探索。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
2024 年 10 月 9 日北京時間 17 時 45 分許,戴維貝克(David Baker)因計算蛋白質(zhì)設(shè)計,戴米斯哈薩比斯(Demis Hassabis)和約翰江珀(John Jumper)因蛋白質(zhì)結(jié)構(gòu)預(yù)測共同獲得 2024 年諾貝爾化學(xué)獎。
戴維貝克(David Baker)是美國化學(xué)家、計算生物學(xué)家,華盛頓大學(xué)教授、蛋白質(zhì)設(shè)計研究所主任,計算蛋白質(zhì)設(shè)計和預(yù)測領(lǐng)域先驅(qū)。貝克1962年出生于美國華盛頓州,1984年在哈佛大學(xué)取得生物學(xué)學(xué)士學(xué)位,1989年獲得加利佛尼亞大學(xué)伯克利分校生物化學(xué)博士學(xué)位, 并在加利福尼亞大學(xué)舊金山分校完成生物物理方向的博士后訓(xùn)練。貝克是被廣泛使用的蛋白質(zhì)結(jié)構(gòu)從頭設(shè)計和預(yù)測軟件“羅賽塔”的發(fā)明人,他的團隊還設(shè)計出了首個具有全新折疊結(jié)構(gòu)的人工蛋白質(zhì)Top7。
戴米斯哈薩比斯(Demis Hassabis)是英國計算機科學(xué)家,人工智能研究者、前游戲設(shè)計師,DeepMind(現(xiàn)Google DeepMind)聯(lián)合創(chuàng)始人及首席執(zhí)行官。哈薩比斯1976年出生于英國倫敦,幼年便展現(xiàn)出驚人的智力天賦,13歲達到國際象棋大師水平。青少年時代的哈薩比斯大部分時間在家由父母輔導(dǎo)自學(xué),15歲時開始游戲設(shè)計師生涯,并在21歲獲得劍橋大學(xué)計算機科學(xué)學(xué)位。畢業(yè)后,他繼續(xù)游戲設(shè)計師工作,運用AI算法參與開發(fā)了著名游戲《黑與白》、《共和國:革命》和《邪惡天才》;在此過程中,他對神經(jīng)科學(xué)產(chǎn)生濃厚興趣并重返校園,2009年獲得倫敦大學(xué)學(xué)院認知神經(jīng)科學(xué)博士學(xué)位,其后在麻省理工學(xué)院-哈佛大學(xué)進行神經(jīng)科學(xué)和人工智能研究。2010年,哈薩比斯在英國倫敦聯(lián)合創(chuàng)立機器學(xué)習(xí)公司DeepMind,并帶領(lǐng)團隊先后發(fā)布震撼世界的AlphaGo、AlphaFold系列模型。在谷歌收購 DeepMind 后,哈薩比斯帶領(lǐng)團隊主導(dǎo)了谷歌最先進的人工智能模型Gemini的開發(fā)。
約翰江珀(John Jumper)是 Google DeepMind 高級研究員。江珀 1985 年出生于美國阿肯色州,2007 年在美國范德比爾特大學(xué)取得物理學(xué)和數(shù)學(xué)學(xué)士學(xué)位, 2008 年在英國劍橋大學(xué)取得理論凝聚態(tài)物理學(xué)碩士學(xué)位。之后,江珀在美國生物化學(xué)研究公司 D. E. Shaw Research 擔(dān)任了 3 年科學(xué)助理,利用計算機模擬進行分子動力學(xué)研究,并開發(fā)了一種從這些模擬中提取關(guān)鍵數(shù)據(jù)的算法。2017 年,江珀在美國芝加哥大學(xué)取得理論化學(xué)博士學(xué)位,利用機器學(xué)習(xí)模擬蛋白質(zhì)折疊和動力學(xué)研究。之后,他又在芝加哥大學(xué)完成了博士后研究,繼續(xù)從事蛋白質(zhì)預(yù)測深度學(xué)習(xí)模型的研究工作。2018 年起,江珀進入英國 DeepMind 公司擔(dān)任高級研究員。在 DeepMind 公司,江珀和同事開發(fā)了AlphaFold 系列模型,他也是 AlphaFold2 開發(fā)團隊的領(lǐng)導(dǎo)者。
《環(huán)球科學(xué)》雜志2024年10月新刊推出“AI重塑結(jié)構(gòu)生物學(xué)”系列專題文章,恰逢其時地對今年諾貝爾化學(xué)獎的成果及三位獲獎?wù)叩难芯窟M行了深入解讀。文章系統(tǒng)梳理了計算蛋白質(zhì)設(shè)計與結(jié)構(gòu)領(lǐng)域的發(fā)展歷程,并詳盡解析了其中的重大突破與前沿進展。為方便讀者系統(tǒng)完整地了解今年的獲獎成果,我們特將兩萬余字的專題內(nèi)容全文刊出。
撰文| 亞塞明薩普拉科格盧(Yasemin Saplakoglu)
翻譯| 金燁鐘博子韜
審校| 張陽
打破僵局的“羅塞塔”
2020年12月,上百位計算科學(xué)家端坐在各自的電腦屏幕前,見證了科學(xué)新紀元的展開。他們因為一場會議匯聚一堂。在這場友好的競爭中,一些人已經(jīng)參與了近三十年,沉迷于探討一個不變的問題著名的“蛋白質(zhì)結(jié)構(gòu)預(yù)測問題”。它解釋起來很簡單:人們能否憑借最為簡單的信息一段蛋白質(zhì)分子的一維序列,精準預(yù)測出它的三維結(jié)構(gòu)?蛋白質(zhì)維持著我們細胞與身體的活力和運轉(zhuǎn),由于它的行為取決于其形狀與結(jié)構(gòu),因此成功解答這一問題將深刻影響我們對疾并新藥研發(fā)以及生命機制的理解。
這個會議每兩年舉辦一次,科學(xué)家會在會議中測試自己最新研發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具。然而,解決方案總是遙不可及,其中一些人賭上了自己的全部科研生涯,試圖提高預(yù)測的準確性。這場競爭始終處于嬰兒學(xué)步階段,所以大家并不認為2020年會有所不同。
但是,他們錯了。就在那一周,一名叫約翰江珀(John Jumper)的科學(xué)家在蛋白質(zhì)結(jié)構(gòu)預(yù)測這一領(lǐng)域嶄露頭角,他展示了一套全新的人工智能(AI)工具“阿爾法折疊2”(AlphaFold2),它是谷歌位于英國倫敦的人工智能子公司“深度思維”(DeepMind)的研發(fā)成果。在在線視頻會議上,這名在該領(lǐng)域資歷尚淺的科學(xué)家報告的數(shù)據(jù)表明,AlphaFold2的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測模型準確率超過90%,是緊隨其后的對手的5倍。
一瞬間,蛋白質(zhì)結(jié)構(gòu)預(yù)測從不可解的難題變成了不再令人痛苦的問題。人類思維陷入僵局,AI大獲成功,一舉震驚了生物學(xué)界。“我當(dāng)時就驚呆了,”與會的美國哥倫比亞大學(xué)數(shù)學(xué)基因組學(xué)項目(Program for Mathematical Genomics)的系統(tǒng)生物學(xué)家穆罕默德庫雷希(Mohammed AlQuraishi)說,“很多人不愿意承認(AlphaFold2的成就)。”
但在總結(jié)發(fā)言中,會議組織者約翰莫爾特(John Moult)以不容置疑的口氣說道:AlphaFold2“在很大程度上解決了”蛋白質(zhì)結(jié)構(gòu)預(yù)測問題,自此徹底改變了蛋白質(zhì)科學(xué)。莫爾特身穿黑色高領(lǐng)衫,坐在自家辦公室的書架前,在會議軟件上點擊自己的幻燈片,語氣激動又帶著一絲不祥的口吻:“這不是終結(jié),而是開始。”
當(dāng)谷歌的公關(guān)部門將這一消息在全球大肆宣揚之后,媒體為之瘋狂。各大頭條口徑一致:AlphaFold2“將改變一切”。而那些將一生貢獻于探索單個蛋白質(zhì)結(jié)構(gòu)的結(jié)構(gòu)生物學(xué)家們則心生恐懼,擔(dān)心自己會失業(yè)。一些人主張AlphaFold2會革新藥物研發(fā),能讓生物學(xué)家快速確定蛋白質(zhì)結(jié)構(gòu),創(chuàng)造全新的靶向藥物。其他人則反駁說這些結(jié)果大部分都是炒作,這個世界并不會因此出現(xiàn)什么變化。莫爾特自己也無法理解這個橫空出世的新事物。會議結(jié)束時,他提出了一個每個人都想問的問題:“接下來怎么辦?”
現(xiàn)在,時間已經(jīng)過去了三年半,他這個問題終于能得到回應(yīng)了。毫無疑問,AlphaFold2確實改變了生物學(xué)家研究蛋白質(zhì)的方式。然而,盡管AlphaFold2是強大的預(yù)測工具,但它并非無所不能。它非常巧妙地使用不同于科學(xué)家的方法解決了一部分蛋白質(zhì)結(jié)構(gòu)預(yù)測問題,卻無法取代生物實驗,反而更加凸顯了實驗的必要性。
也許AlphaFold2最大的影響力是讓生物學(xué)家注意到了AI的威力。它啟發(fā)了新的算法,例如設(shè)計出自然界中并不存在的全新蛋白質(zhì),也催生了新的生物技術(shù)公司以及實踐科學(xué)的新方法。它的新版本AlphaFold3在2024年5月上線,引領(lǐng)生物學(xué)預(yù)測技術(shù)進入下一階段:構(gòu)建蛋白質(zhì)與其他分子(諸如DNA或者RNA)結(jié)合的復(fù)合體結(jié)構(gòu)。“這是迄今為止最宏大的‘機器學(xué)習(xí)驅(qū)動科學(xué)’的故事。”庫雷希說道。
不過,AI無法填補的鴻溝仍然大量存在。這類工具無法模擬蛋白質(zhì)隨著時間推移而發(fā)生的變化,或者說無法構(gòu)建處于自身生存環(huán)境即細胞中的蛋白質(zhì)的動態(tài)結(jié)構(gòu)。而在科學(xué)家為AlphaFold2的預(yù)測能力折服之前,人類對蛋白質(zhì)結(jié)構(gòu)背后隱藏秘密的不懈追求,已經(jīng)持續(xù)了半個多世紀。
問題的誕生
一張折紙不過是一層被壓縮的木漿,直到以特定方式折疊,它才煥發(fā)新生。只需要幾次精準地翻卷和壓折,這張紙就能變成“算命大師”預(yù)言你的未來。在同一張紙上改變一些折疊步驟,一只紙鶴就此展翅而來,給收到它的人帶來好運。
同樣,一長串氨基酸分子鏈本身沒有任何功能,直到它自發(fā)折疊成固有形狀,生物學(xué)家稱之為蛋白質(zhì)結(jié)構(gòu)。蛋白質(zhì)的結(jié)構(gòu)決定了自身與其他生命分子結(jié)合或相互作用的方式,從而定義它在細胞中的作用。
地球上已知的蛋白質(zhì)種類上億,未知的則更多。它們無所不能:血紅蛋白和肌紅蛋白在肌肉和身體中循環(huán)輸送氧氣。角蛋白為頭發(fā)、指甲與皮膚提供結(jié)構(gòu)框架。胰島素協(xié)助葡萄糖進入細胞,轉(zhuǎn)化成能量。蛋白質(zhì)可以呈現(xiàn)無數(shù)形狀結(jié)構(gòu),以匹配生命活動過程中無數(shù)的“工作需求”。“從原子到生態(tài)系統(tǒng),(蛋白質(zhì)結(jié)構(gòu))就像是一種通用語。”庫雷希打比方道,“萬物源自此處。”
細胞讓名為氨基酸的小分子像雛菊花環(huán)一樣連起來形成多肽長鏈,制造出蛋白質(zhì)。它所選擇的氨基酸取決于DNA提供的一連串指令。在這個創(chuàng)造過程中,多肽鏈一瞬之間就能彎曲扣合,精準折疊成蛋白質(zhì)最終的三維結(jié)構(gòu)。一旦脫離分子組裝流水線,蛋白質(zhì)就會立刻奔赴屬于自己的生物學(xué)工作。
如果蛋白質(zhì)無法順利完成折疊過程,災(zāi)難將接踵而至,破壞身體功能。蛋白質(zhì)錯誤折疊或展開都會產(chǎn)生毒性,導(dǎo)致細胞死亡。許多疾病與身體障礙,例如鐮狀細胞貧血,都由蛋白質(zhì)錯誤折疊造成。此外,錯誤折疊的蛋白質(zhì)還會凝聚成斑塊,成為阿爾茨海默病和帕金森病等神經(jīng)退行性疾病的生物學(xué)標志。
然而,無人確切知曉蛋白質(zhì)折疊究竟是如何發(fā)生的。這些簡單分子鏈中的序列信息如何編碼蛋白質(zhì)的復(fù)雜結(jié)構(gòu)?這是“我們能夠提出的最深刻的問題”,美國約翰霍普金斯大學(xué)(Johns Hopkins University)大學(xué)的生物物理學(xué)名譽教授喬治羅斯(George Rose)如此評價道。
科學(xué)家對這個問題的探索最早可追溯至20世紀30年代,但真正開始動手嘗試解謎則是在50年代中期。當(dāng)時,生物化學(xué)家克里斯蒂安安芬森(Christrian Anfinsen)將蛋白質(zhì)加入化學(xué)溶液中,試圖打斷化學(xué)鍵展開蛋白質(zhì),或者令其錯誤折疊。安芬森發(fā)現(xiàn),被打開或錯誤折疊的蛋白質(zhì)會自發(fā)重構(gòu)成正確結(jié)構(gòu)。這個后來為他贏得了諾貝爾獎的發(fā)現(xiàn),表明蛋白質(zhì)會根據(jù)其內(nèi)部代碼形成三維結(jié)構(gòu),這個代碼是由它的氨基酸鏈書寫的。
于是,安芬森假設(shè),我們應(yīng)該能找到一種方法,通過氨基酸序列來預(yù)測蛋白質(zhì)的形狀結(jié)構(gòu)。這就是后來廣為人知的“蛋白質(zhì)折疊問題”。
一旦多肽鏈組裝完成,蛋白質(zhì)便能在千分之一秒內(nèi)折疊成形,速度之快讓分子生物學(xué)家塞勒斯利文索爾(Cyrus Levinthal)困惑不已。在他1969年發(fā)表的論文《如何優(yōu)雅折疊》(How to Fold Graciously)中,利文索爾計算出,如果蛋白質(zhì)嘗試每一種可能的折疊方式,那么組裝完畢所需的時間可能會無限漫長。他思索著,顯然一定有什么方法能更直接地“護送”蛋白走在正確折疊的道路上。
隨著時間的推移,蛋白質(zhì)折疊問題已經(jīng)分化成了全新的類型。如今的科學(xué)家提出了三大主要問題:能否通過蛋白質(zhì)氨基酸序列來預(yù)測蛋白質(zhì)結(jié)構(gòu)?蛋白質(zhì)的折疊編碼是什么?它的折疊機制又是怎樣的?
20世紀60年代早期,隨著首批實驗確定的蛋白質(zhì)結(jié)構(gòu)相繼問世,這些問題開始“鉆入”科學(xué)家的大腦。英國劍橋大學(xué)(University of Cambridge)的兩位生物學(xué)家馬克斯佩魯茨(Max Perutz)和約翰肯德魯(John Kendrew)讓蛋白質(zhì)生長成晶體,用X射線轟擊后測量射線偏折的程度,這一技術(shù)便是X射線晶體學(xué)(X-ray crystallography)。如此一來,他們就能確定血紅蛋白和肌紅蛋白的三維結(jié)構(gòu)。這一過程耗費了兩人二十多年的時間,最終為他們帶來了諾貝爾獎。
自此之后,無數(shù)科研人員努力鉆研,不僅想要理解不同蛋白質(zhì)不同的結(jié)構(gòu)形態(tài),還想要知道它們是如何形成的。“想要看清事物的樣貌是人的本性,因為只有知其然,才能知其所以然。”英國格拉斯哥大學(xué)(University of Glasgow)的結(jié)構(gòu)生物學(xué)家海倫沃爾登(Helen Walden)解釋道。有些人從蛋白質(zhì)化學(xué)入手,其他人則集中解決物理角度上的問題。實驗科學(xué)家展開艱苦的研究工作,重構(gòu)蛋白質(zhì)結(jié)構(gòu);計算生物學(xué)家以各種方式結(jié)合算法進行編程和重編程,通過模型和模擬來捕捉線索。
隨著被破解的蛋白質(zhì)結(jié)構(gòu)越來越多,這個領(lǐng)域需要新的方法來組織與共享信息。1971年,為蛋白質(zhì)結(jié)構(gòu)存檔的蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank)成立了。這個免費的數(shù)據(jù)庫成為了需要了解蛋白質(zhì)結(jié)構(gòu)、探索生物學(xué)問題的研究者的可靠研究工具。蛋白質(zhì)數(shù)據(jù)庫成立之初,里面只保存了7種蛋白質(zhì)結(jié)構(gòu)。50年之后谷歌DeepMind用它來訓(xùn)練AlphaFold2時,它所保存的蛋白質(zhì)結(jié)構(gòu)數(shù)量已超過14萬,這都是結(jié)構(gòu)生物學(xué)家在實驗室內(nèi)解析所得。
實驗科學(xué)家的苦惱
從20世紀70年代中期開始,珍妮特桑頓(Janet Thorntom)每隔幾個月一定會收到一只郵包,里面是一盤12英寸磁帶,記錄著被存入蛋白質(zhì)數(shù)據(jù)庫的新結(jié)構(gòu)數(shù)據(jù)。作為英國牛津大學(xué)(Oxford University)的生物物理學(xué)家,桑頓迫不及待地打開包裹,在新結(jié)構(gòu)被發(fā)現(xiàn)后的第一時間展開分析。她收到的第一份磁帶中只有20個結(jié)構(gòu)。
每一個蛋白質(zhì)結(jié)構(gòu)都凝結(jié)著數(shù)年研究的心血。通常情況下,讓單個蛋白質(zhì)結(jié)晶,從中收集數(shù)據(jù)或解釋數(shù)據(jù)以解析出折疊結(jié)構(gòu),需要一個博士生在研究生院里投入四年或更長的時間。牛津大學(xué)生物物理系當(dāng)時是全球X射線晶體學(xué)的研究中心之一。1965年,蛋白質(zhì)晶體學(xué)領(lǐng)域的先驅(qū)之一戴維菲利普斯(David Phillips)首先確定了溶菌酶的結(jié)構(gòu)這是我們的免疫系統(tǒng)用來攻擊細菌的一種蛋白質(zhì)。
使用X射線晶體學(xué)方法,牛津大學(xué)的生物物理學(xué)家繪制出了蛋白質(zhì)電子密度圖譜,圖中電子集中的區(qū)域可能包含一個原子。桑頓和同事將電子密度圖譜打印到塑料薄片上,一張又一張地疊放起來,創(chuàng)造出了蛋白質(zhì)地理的 “等高線圖”。
然后,他們將圖片轉(zhuǎn)變成物理模型。科學(xué)家將打印在塑料上的圖譜放入名為“理查茲盒”(Richards box)的設(shè)備中,該設(shè)備1968年由牛津大學(xué)生物物理學(xué)家弗雷德里克理查茲(Frederic Richards)發(fā)明,并以他的名字命名。理查茲盒的內(nèi)部有一面以一定角度傾斜的鏡子,能將圖片反射到工作區(qū)域內(nèi),這樣科學(xué)家就能真切地看清每一個原子之間的相對位置。接下來,他們使用圓球和小棍子,搭建出物理實體模型。
這一方法過程繁瑣,限制頗多。1971年,后來成為著名晶體學(xué)家的路易絲約翰遜(Louise Johnson)正在搭建磷酸酶的模型,它由842個氨基酸組成,是當(dāng)時科學(xué)家研究的最大蛋白質(zhì)。為了建模,約翰遜必須爬上兩層樓高的理查茲盒,這是牛津為了她的研究專門建造的。
模型建成后,科學(xué)家用尺來測量各原子之間的距離,確定蛋白質(zhì)結(jié)構(gòu)坐標。“這個方法很古老,”桑頓說。接下來,他們將所有坐標數(shù)據(jù)輸入計算機中,計算機版本的蛋白質(zhì)結(jié)構(gòu)看上去像一片密林,她繼續(xù)解釋道,原子雜亂聚集在一起,只有戴上3D眼鏡,才開始能看到蛋白質(zhì)的拓撲結(jié)構(gòu)。“整個過程非常折磨人,”桑頓說,“但結(jié)果出來后又令人愉悅。”
經(jīng)過年復(fù)一年的努力付出,一旦科研人員確信自己的蛋白質(zhì)結(jié)構(gòu)無誤,他們就將數(shù)據(jù)提交給蛋白質(zhì)數(shù)據(jù)庫。1984年,數(shù)據(jù)庫內(nèi)存放了152種蛋白質(zhì)結(jié)構(gòu),到了1992年,這一數(shù)字增長至747。
就在實驗科學(xué)家努力建造物理模型的同時,另一批蛋白質(zhì)生物學(xué)家計算生物科學(xué)家卻另辟蹊徑。他們思考著安芬森對于可以通過氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)的假說,并且有點兒過于自信了。
書寫自己的法則
20世紀60年代初,還是本科生的約翰莫爾特打算成為物理學(xué)家。然后,他了解到了蛋白質(zhì)折疊問題。“有人舉辦了一場講座,說生物太重要了,不能只留給生物學(xué)家。”他說,“我很自負地把這話當(dāng)真了。”被講座深深吸引的莫爾特將自己的職業(yè)生涯轉(zhuǎn)向了另一個方向。
畢業(yè)之后,莫爾特進入了蛋白質(zhì)晶體學(xué)領(lǐng)域。他破譯出若干蛋白質(zhì)結(jié)構(gòu),包括β-內(nèi)酰胺酶(一種能破壞青霉素的細菌酶)。1970年他在牛津大學(xué)獲得了分子生物物理學(xué)博士學(xué)位。但在開始博士后工作的時候,他厭倦了實驗方法,開始轉(zhuǎn)向日漸蓬勃的蛋白質(zhì)計算領(lǐng)域。計算生物學(xué)家,可以說是實驗科學(xué)家的對立面,他們編寫計算機算法,嘗試證明安芬森是對的:給程序投喂氨基酸鏈,讓它生成正確的蛋白質(zhì)結(jié)構(gòu)。
從生物實驗轉(zhuǎn)向計算領(lǐng)域并非易事。莫爾特習(xí)慣了對每個蛋白質(zhì)結(jié)構(gòu)進行緩慢但細致的研究。而在新領(lǐng)域中,關(guān)于算法的論文一篇接一篇,常常宣稱已經(jīng)解決了蛋白質(zhì)結(jié)構(gòu)問題以及相關(guān)的子問題。
莫爾特對此持懷疑態(tài)度。“計算生物學(xué)領(lǐng)域發(fā)表的文章并不像我以前熟悉的研究那么嚴謹。”他說,“這并不是因為這個圈子里的人都是騙子,而是因為如果你進行計算研究,就是在虛擬世界中工作。”
在虛擬世界中,計算科學(xué)家編寫自己的法則,而自然世界的法則在此不發(fā)揮作用。他們設(shè)計自己的算法,好讓原子以某一方式凝聚在一起,或者讓蛋白質(zhì)總是向右或向左折疊。隨著時間的推移,模型與現(xiàn)實越來越遙遠。在一個完全處于自己掌控的世界中,人們很難始終保持嚴謹,莫爾特如此評價道。
盡管如此,他能看到這兩個領(lǐng)域各自的優(yōu)勢。實驗科學(xué)家的研究細致但緩慢;計算科學(xué)家迅速卻偏離生物物理的現(xiàn)實,所以他們經(jīng)常出錯。于是,他想到,一定有一種方法,能夠?qū)⑦@兩個途徑結(jié)合起來。
開始“跺腳”
20世紀90年代初,莫爾特和同事克日什托夫菲德利斯(Krzysztof Fidelis)想出了一個辦法來規(guī)范領(lǐng)域內(nèi)混亂的形勢。他們創(chuàng)立了一個群體性科學(xué)實驗,稱為“全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽”(Critical Assessment of Structure Prediction,CASP)。
他們的思路很簡單,作為CASP的組織者,莫爾特與菲德利斯會公布一張氨基酸序列清單,這些序列所代表的蛋白質(zhì)結(jié)構(gòu)已被實驗科學(xué)家解析出來,但尚未公開發(fā)表。隨后,全球的計算科學(xué)團隊可以使用他們能想到的任何方法來預(yù)測蛋白質(zhì)結(jié)構(gòu)。將有一支獨立的科學(xué)家團隊評估后者的模型,將其與實驗確定的結(jié)構(gòu)做對比。
這個主意被推行開來,CASP很快成為了用計算生物學(xué)方法解決結(jié)構(gòu)預(yù)測難題的試驗常當(dāng)時AI還未誕生,計算方法主要涉及分子物理學(xué)模擬。對于科學(xué)家來說,這正是將自己的想法付諸實驗,與同行公開測試的好機會。“這原本不是競賽。”桑頓說,“但結(jié)果卻成為了一場競賽。”
每隔兩年,科學(xué)家齊聚阿西洛瑪會議中心(Asilomar conference center),這是一座位于美國加利福尼亞州蒙特利附近的古老教堂,曾是基督教新教衛(wèi)理公會的靜修場所。會議期間,組織者宣布競賽結(jié)果,計算生物學(xué)家彼此交流自己的方法。如果與會者不喜歡他們聽到的內(nèi)容,莫爾特鼓勵學(xué)者們在木地板上跺腳表達意見。
“一開始,跺腳聲響成一片。”他說。曾跟隨桑頓學(xué)習(xí)過的英國倫敦大學(xué)學(xué)院(University College London)生物信息學(xué)教授戴維瓊斯(David Jones)回憶道,“聲響就跟打鼓一樣。”如果會議陷入細節(jié)的泥沼,生物學(xué)家們就會跺腳;如果言過其實,他們也會跺腳;如果發(fā)言人不停重復(fù)或者過于嗦,他們還是會跺腳。當(dāng)然,這些都是友好性跺腳,“并不令人生厭”。
無論出于何種原因,當(dāng)嘈雜的跺腳聲傳入發(fā)言人的耳中,總會讓人尷尬。“感謝上帝,我發(fā)言的時候從來沒人跺腳。”瓊斯說道,他的團隊提出了一套名為“穿針引線”(threading)的計算方法,這種方法將氨基酸序列“編織”進已知的蛋白質(zhì)結(jié)構(gòu)中,據(jù)此來匹配正確的結(jié)構(gòu)。結(jié)果還不錯。“我們很滿意,之后一切就順理成章了。”瓊斯笑著回憶道,“還充滿樂趣。”
意大利帕多瓦大學(xué)(University of Padua)生物信息學(xué)教授西爾維奧托薩托(Silvio Tosatto)說,當(dāng)時大家都興奮不已。“人們認為自己能成為百萬富翁,因為他們掌握了正確的算法,還有一些人覺得自己馬上就能得諾貝爾獎了。”
在最初幾年內(nèi),什么都沒發(fā)生。當(dāng)被問及當(dāng)時CASP的預(yù)測結(jié)果提交情況時,莫爾特頓了一下說:“隨機是個不錯的說法。”有些方法的表現(xiàn)超出預(yù)期,例如“同源性建模”(homology modeling),這種方法將已知蛋白質(zhì)結(jié)構(gòu)作為參照,用來推測未知的蛋白結(jié)構(gòu)。其他方法則一無所獲。大部分結(jié)構(gòu)預(yù)測 “看上去都很折磨人”,莫爾特說道。
“我樂于看到他們失敗。”荷蘭癌癥研究所(Netherlands Cancer Insitute)和烏特勒支大學(xué)(Utrecht University)的結(jié)構(gòu)生物學(xué)家阿納斯塔西斯佩拉基斯(Anastassis Perrakis)開玩笑道。他向CASP組織者提供實驗確定的結(jié)構(gòu),用于預(yù)測競賽。“這不是競爭,但我們喜歡在科學(xué)上互相逗樂。”
在這一過程中,明顯的領(lǐng)先者出現(xiàn)了。1996年,第二屆CASP結(jié)束之后,一位名叫戴維貝克(David Baker)的年輕人邀請瓊斯一同坐車去機常貝克聽過瓊斯的演講,正在鉆研自己的計算模型。雖然模型還沒準備好參加CASP,但他很想先和瓊斯聊一下。瓊斯在車上聽了他的想法,也沒想過以后還會再見。
然而,1998年下一輪競賽期間,貝克就帶著自己的“羅塞塔”(Rosetta)算法一鳴驚人。他成為了“最難打敗的人”,瓊斯這樣評價道。羅塞塔這樣的算法模擬氨基酸分子中原子之間的相互作用,以此預(yù)測它們的折疊方式。這“表明你確實可以預(yù)測蛋白質(zhì)結(jié)構(gòu),”貝克解釋說,“但不夠好,也不夠精確,用途不大。”
2008年時,人類還能戰(zhàn)勝計算機。貝克當(dāng)時已經(jīng)在美國華盛頓大學(xué)(University of Washington)擁有了自己的實驗室。他開發(fā)了一款名為“折疊它”(Foldit)的免費在線游戲,玩家需要將給定的氨基酸鏈折疊成蛋白質(zhì)結(jié)構(gòu)。在一篇發(fā)表于《自然》(Nature)的論文中,他的團隊報告說在模擬蛋白質(zhì)結(jié)構(gòu)方面,人類玩家的表現(xiàn)超越了羅塞塔算法。
然而,人類的領(lǐng)先優(yōu)勢并沒有持續(xù)太久。在21世紀10年代初,“協(xié)同演化”(co-evolution)這一概念的重大突破推動了領(lǐng)域的發(fā)展,后來還成為了AI預(yù)測工具誕生的關(guān)鍵。這一概念已存在了幾十年,解釋起來相當(dāng)簡單:通過比較數(shù)百個乃至數(shù)千個密切相關(guān)但彼此不同的蛋白質(zhì)的氨基酸序列,科學(xué)家能夠識別出那些發(fā)生了突變氨基酸,重點是,還能確定它們是否與其他氨基酸同步突變。如果兩個氨基酸共同變化,它們很可能以某種方式相連。“你就能說:‘這兩個氨基酸在空間上可能很接近。’”美國勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory)的結(jié)構(gòu)生物學(xué)家保羅亞當(dāng)斯(Paul Adams)解釋道。
但直到21 世紀10年代初,這種預(yù)測哪些氨基酸可能存在物理接觸的準確率依然很低,徘徊在20%~24%。后來,科學(xué)家注意到自己的統(tǒng)計學(xué)方法會引入錯誤,數(shù)據(jù)表明一些氨基酸存在接觸,但實際上并沒有。接下來,莫爾特了解到,幾十年來統(tǒng)計學(xué)家一直敏銳地知到這樣的錯誤確實存在。他說,當(dāng)你回頭看時,你會想,“我怎么會這么蠢?”
計算生物學(xué)家改進了統(tǒng)計學(xué)工具。到2016年,氨基酸接觸預(yù)測的準確率攀升至47%,兩年之后則達到70%。貝克的算法便是建立在這一成功之上:2014年羅塞塔非常精準地生成了兩個蛋白質(zhì)結(jié)構(gòu),CASP評估方甚至認為貝克可能解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測的難題。
協(xié)同演化的見解“絕妙無比”,亞當(dāng)斯如此說道。在不使用機器學(xué)習(xí)的情況下,協(xié)同演化是“推動領(lǐng)域前進的重大事件之一”。然而,該領(lǐng)域的發(fā)展仍然有限。協(xié)同演化要求大量的相似蛋白質(zhì)彼此比對,而實驗科學(xué)家解析蛋白質(zhì)結(jié)構(gòu)的速度沒那么快,無法滿足計算科學(xué)家的需求。對此,莫爾特套用了一個演化生物學(xué)術(shù)語:研究蛋白質(zhì)結(jié)構(gòu)預(yù)測的進度是一種“間斷平衡”。有時候,大家覺得好像幾十億年都沒出現(xiàn)什么好想法,然后,一些令人振奮的事情就會發(fā)生。
AlphaFold2一鳴驚人
2016年,戴維瓊斯(David Jones)在《自然》(Nature)雜志發(fā)布的一篇新論文中瞥見了未來。在這篇論文中,谷歌(Google)旗下、位于英國倫敦的人工智能團隊深度思維的研究人員詳細描述了他們?nèi)绾问褂靡环N名為“深度學(xué)習(xí)”(deep learning)的算法,在古老的圍棋游戲中擊敗了人類冠軍。這一成果令瓊斯十分驚訝。“形勢正在變化,”他回憶起當(dāng)時自己的想法,“我意識到了解深度學(xué)習(xí)迫在眉睫。”
深度學(xué)習(xí)是一種受人腦啟發(fā)而開發(fā)的人工智能方法。在大腦中,分子信息通過神經(jīng)元組成的一個神經(jīng)網(wǎng)絡(luò)傳遞。神經(jīng)元是腦細胞的一種,它們有一些名為樹突的小手臂,可以“抓住”鄰近神經(jīng)元釋放的信號分子(也稱為神經(jīng)遞質(zhì)),這些信號分子會告訴接收的神經(jīng)元是否激活并傳播信號。“如果神經(jīng)元接收到足夠多的刺激,那么它就會激活并釋放信號分子,”美國布朗大學(xué)計算機科學(xué)教授邁克爾利特曼(Michael Littman)說道。這些信號分子被釋放后,會傳遞給下一個神經(jīng)元。
20世紀50年代,一些計算機科學(xué)家意識到,他們可以將電子比特連接在一起,創(chuàng)建一個“人工神經(jīng)網(wǎng)絡(luò)”(Artificial Neural Network,ANN)。ANN中的每個單元都是一個節(jié)點,研究人員將其比作一個人工神經(jīng)元:在ANN中,人工神經(jīng)元接受來自其他人工神經(jīng)元的信息,并通過計算決定是否需要向下一個人工神經(jīng)元傳遞信號。信息會通過多層人工神經(jīng)元傳播,以產(chǎn)生一個特定的結(jié)果,例如從一張圖像中識別出一只狗。神經(jīng)元層數(shù)越多,進行的計算就會越復(fù)雜。然而,早期的ANN僅有兩層神經(jīng)元。在20世紀90年代,這一數(shù)量增加到三層,并一直維持了20年。“我們無法找到可靠的方法來創(chuàng)建更深層的網(wǎng)絡(luò),”利特曼說道。
自20世紀90年代以來,包括瓊斯和約翰莫爾特(John Moult)在內(nèi)的結(jié)構(gòu)生物學(xué)家就一直在嘗試將ANN應(yīng)用于蛋白質(zhì)科學(xué)。然而,淺層神經(jīng)網(wǎng)絡(luò)的局限性和稀疏的數(shù)據(jù)阻礙了他們前進。不過在大概十年之前,計算機科學(xué)家學(xué)會了如何更好地構(gòu)建ANN,從而可靠地訓(xùn)練更多層的網(wǎng)絡(luò)。ANN的深度從20層、50層、100層逐漸增加到數(shù)千層。“為了將這些新網(wǎng)絡(luò)與上世紀90年代的ANN區(qū)分開來,人們開始稱其為‘深度學(xué)習(xí)’,”利特曼說道,“如果說機器學(xué)習(xí)領(lǐng)域的人特別擅長哪件事,那一定是起一些有吸引力的名字。”深度學(xué)習(xí)徹底變革了人工智能,讓算法不僅在圖像和語音識別方面表現(xiàn)卓越,甚至在游戲中擊敗了人類。
2016年3月,當(dāng)DeepMind的聯(lián)合創(chuàng)始人戴米斯哈薩比斯(Demis Hassabis)在韓國首爾觀看他的AI系統(tǒng)“阿爾法圍棋”(AlphaGo)在圍棋比賽中擊敗一位人類世界冠軍時,他突然回想起自己在大學(xué)時玩蛋白質(zhì)折疊游戲Foldit的經(jīng)歷。他不禁思考:既然DeepMind的研究人員能夠編寫一個模仿圍棋大師直覺的算法,他們是否也能開發(fā)出一個算法,去模擬Foldit玩家對生物學(xué)一無所知但仍能成功折疊蛋白質(zhì)的直覺呢?
美國芝加哥豐田計算技術(shù)研究院(Toyota Technological Institute at Chicago)的教授許錦波(Jinbo Xu)也意識到了深度學(xué)習(xí)在解決蛋白質(zhì)結(jié)構(gòu)預(yù)測中的潛力。當(dāng)時,計算機科學(xué)家在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中取得了巨大成功,在這種網(wǎng)絡(luò)中,算法會將圖像分解為小塊,并通過識別這些小塊之間的模式來處理圖像。受到這些圖像處理網(wǎng)絡(luò)的啟發(fā),許錦波將這一技術(shù)引入蛋白質(zhì)結(jié)構(gòu)預(yù)測。他使用一種叫做矩陣的數(shù)學(xué)對象,來描述在空間上彼此接近的氨基酸,然后將這個矩陣作為圖像輸入CNN。算法會在這些圖像中尋找規(guī)律,以預(yù)測蛋白質(zhì)中各個原子的三維坐標。
2016年,許錦波在預(yù)印本文庫arXiv上發(fā)布了研究成果,并隨后將其發(fā)表在《公共科學(xué)圖書館計算生物學(xué)》(PLOS Computational Biology)上。莫爾特說,“這項工作在該領(lǐng)域產(chǎn)生了深遠的影響,它向人們展示了‘如何使用深度學(xué)習(xí)來做這類事情(比如蛋白質(zhì)結(jié)構(gòu)預(yù)測)’。”沒過多久,許多蛋白質(zhì)結(jié)構(gòu)研究小組也開始嘗試深度學(xué)習(xí)。穆罕默德庫雷希(Mohammed AlQuraishi)和他的研究團隊開發(fā)了首個完全依靠ANN直接預(yù)測蛋白質(zhì)結(jié)構(gòu)的方法,這類方法也被稱為“端到端”方法盡管預(yù)測效果并不理想。其他研究者也開始探索這種革命性的新方法。
“最初我并不完全知道自己想用深度學(xué)習(xí)來解決什么具體問題,但我意識到我需要進入這一領(lǐng)域,”瓊斯說道。于是,他開始撰寫經(jīng)費申請以尋找自己的方向,就在這時,他恰巧收到了來自DeepMind的電子郵件。他們詢問了瓊斯關(guān)于全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽(CASP)的情況,并表示愿意提供幫助。“我以為他們的意思只是想說:我們擁有很多算力,”瓊斯說道。然而,在瓊斯見到他們之后,他發(fā)現(xiàn)谷歌顯然有更大的雄心壯志。而為了實現(xiàn)這些目標,這家科技巨頭需要更多學(xué)術(shù)界的人才。
新秀登場
2016年,當(dāng)瓊斯開始作為顧問參與DeepMind的項目時即后來的阿爾法折疊(AlphaFold),約翰江珀(John Jumper)正在美國芝加哥大學(xué)攻讀他的理論化學(xué)博士學(xué)位。江珀在青年時期不僅自學(xué)了編程,還展現(xiàn)出物理方面的天賦。所以當(dāng)他進入大學(xué)時,盡管他的工程師父母擔(dān)心他將來可能很難找到工作,但他還是堅定選擇了數(shù)學(xué)和物理專業(yè)。“我一直認為自己會成為一名研究‘宇宙法則’的物理學(xué)家,”江珀說,“我一直很喜歡這種探索宇宙真理的想法。”
在美國范德比爾特大學(xué)(Vanderbilt University)就讀本科期間,他與費米實驗室的研究人員合作研究一種名為夸克的亞原子粒子的獨特性質(zhì)。一天,當(dāng)他和很多研究人員一起坐在午餐桌旁時,他聽到了一個令人沮喪的消息。“我們正在設(shè)計的這個實驗,什么時候會啟動?”江珀回憶起當(dāng)時曾這樣問道。一位教授表示可能要等到他退休后,而另一位更年長的教授說,他可能看不到那一天了。
“我希望從事一些時間周期更短的科學(xué)研究,”江珀說道。本科畢業(yè)后,他開始攻讀凝聚態(tài)物理學(xué)的博士學(xué)位,但很快便輟學(xué)了。這之后他在位于紐約的D.E. 肖研究公司(D.E. Shaw Research)找到了一份工作,這家公司當(dāng)時正在進行蛋白質(zhì)動力學(xué)模擬的基礎(chǔ)研究。通過了解蛋白質(zhì)如何運動和變化,他們希望能夠更好地理解各種疾。ɡ绶伟┑闹虏C制。
這是江珀第一次了解到自己的工作具有潛在的重大意義:“這關(guān)乎人類的健康,能延長人們的生命”。在接下來的3年里,江珀在公司的超級計算機上模擬蛋白質(zhì)的運動,這些超級計算機專門用于加速分子動力學(xué)模擬。“有時候我花一天時間進行的模擬比我整個博士期間的總和都要多,”他說。
2011年,他再次攻讀博士學(xué)位,這次是在芝加哥大學(xué)學(xué)習(xí)理論化學(xué)。他仍然對蛋白質(zhì)的結(jié)構(gòu)和運動充滿興趣,但同時也為學(xué)術(shù)界緩慢的研究進展而沮喪。“我不再能使用D.E. 肖研究公司那些定制的計算機硬件了,”江珀說道。他想知道是否可以使用人工智能“當(dāng)時我們稱之為統(tǒng)計物理學(xué)”來實現(xiàn)快速的蛋白質(zhì)模擬,這個過程通常需要借助先進的機器才能實現(xiàn)。于是他開始涉足機器學(xué)習(xí)和ANN。
也是在此期間,他開始思考蛋白質(zhì)結(jié)構(gòu)預(yù)測的問題。他認為利用蛋白質(zhì)數(shù)據(jù)庫(Protein Data Bank, PDB)中的結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù)就能解決這個問題到2012年時,該數(shù)據(jù)庫已包含超過7.6萬個蛋白質(zhì)結(jié)構(gòu)。“我相信這些數(shù)據(jù)是足夠的,”江珀說道,“但當(dāng)時的方法還不夠成熟。”
在博士期間,江珀一直致力于利用機器學(xué)習(xí)來模擬蛋白質(zhì)的折疊和運動過程。2017年,剛獲得博士學(xué)位的他聽聞DeepMind正在開展蛋白質(zhì)結(jié)構(gòu)預(yù)測,便申請了研究科學(xué)家的職位。“當(dāng)時這個項目仍然是保密的,”江珀說道。在面試中,只要他提到蛋白質(zhì)結(jié)構(gòu)預(yù)測,DeepMind團隊就會迅速轉(zhuǎn)移話題,“然而,正是因為他們這樣做了太多次,我才確信他們確實在做這件事情。”
2017年10月,江珀來到了DeepMind位于倫敦的辦公室。在瓊斯的幫助下,團隊已經(jīng)在對AlphaFold進行深入的開發(fā)工作。“那段時間非常有趣,我們會不停地提出各種想法。”瓊斯說道,“最終一個好的核心想法浮現(xiàn)出來,團隊便開始沿著這個方向展開工作。”為了訓(xùn)練他們的算法,DeepMind團隊使用了PDB中超過14萬個蛋白質(zhì)結(jié)構(gòu)。他們將這些信息輸入到一個CNN中,但對人工智能架構(gòu)本身沒有進行太多改動。“這是 ‘標準的機器學(xué)習(xí)’”,江珀說道。
到2018年春天,AlphaFold已經(jīng)準備好參加CASP,與真正的蛋白質(zhì)科學(xué)家們展開競爭。“這有點像F1賽車,”瓊斯回憶道,“你以為你造了最好的車,但你不知道其他團隊造了什么。”這場比賽的風(fēng)險很高,DeepMind團隊討論了是否應(yīng)該匿名參賽,畢竟他們不想冒著被羞辱的風(fēng)險。“沒有人想失敗。”瓊斯說,“在學(xué)術(shù)界,這是研究工作的一部分。如果你失敗了就只能繼續(xù)前進,因為你沒有其他選擇。但如果你是一家市值數(shù)十億美元的科技公司,嘗試做某事卻失敗了,這顯然會給外界留下不好的印象。”
他們最終還是決定以DeepMind的名義提交結(jié)果。在12月召開的CASP會議的前幾個月,瓊斯收到了CASP組織者的消息。他們建議DeepMind團隊來參加會議,因為AlphaFold表現(xiàn)非常好,它在超過一半的蛋白質(zhì)結(jié)構(gòu)預(yù)測中,給出了最好的預(yù)測。盡管這次勝利并不算特別耀眼,其蛋白質(zhì)結(jié)構(gòu)預(yù)測總分只比第二名高13分,但也給人留下了深刻印象。“顯然,一些有趣的事情發(fā)生了,”莫爾特說道。
算法新生
這場勝利極大地鼓舞了DeepMind團隊,但他們深知距離徹底解決蛋白質(zhì)結(jié)構(gòu)預(yù)測問題還有一段很長的路要走。哈薩比斯再次將他們聚集在一起。“我們要繼續(xù)攻克這個問題嗎?”江珀回憶起哈薩比斯的話,“如果不繼續(xù),那就去尋找那些我們能產(chǎn)生巨大影響的問題。”江珀繼續(xù)說,“有那么一刻,我們決定要把這個問題徹底解決。”于是,他們重新回到起點,開始新一輪的研究。
憑借著在物理、化學(xué)、生物學(xué)和計算領(lǐng)域的多樣化背景,江珀給那些頭腦風(fēng)暴會議帶來了獨特的見解。不久后,他開始領(lǐng)導(dǎo)這個團隊,團隊的規(guī)模也從最初的6人擴大到了15人。“有一些非常特別的事情正在發(fā)生,”拉斐爾湯曾德(Raphael Townshend)說道。2019年,他曾在DeepMind實習(xí),后來創(chuàng)辦了由人工智能驅(qū)動的生物科技公司“原子人工智能”(Atomic AI)。
在學(xué)術(shù)界,專家們往往彼此分隔,各自研究一些獨立項目,很少尋求合作。而在DeepMind,來自統(tǒng)計學(xué)、結(jié)構(gòu)生物學(xué)、計算化學(xué)、軟件工程等領(lǐng)域的專家們齊聚一堂,共同研究蛋白質(zhì)結(jié)構(gòu)預(yù)測問題。他們還擁有谷歌提供的龐大財力和計算資源。“我在博士期間需要花費幾個月完成的事情,在這里一天就能完成,”湯曾德說道。
“位于倫敦的DeepMind辦公室充滿活力,而其中的大部分活力都來自江珀。”湯曾德說,“我認為他是一個真正的天才,同時也是一個非常謙遜的人。”美國計算機科學(xué)家埃倫鐘(Ellen Zhong)說道:“他深受團隊的喜愛。”鐘曾于2021年在DeepMind實習(xí),現(xiàn)在是美國普林斯頓大學(xué)(Princeton University)的助理教授。
在江珀的領(lǐng)導(dǎo)下,團隊對AlphaFold進行了重構(gòu),開發(fā)了AlphaFold2。DeepMind設(shè)計了一種新型的轉(zhuǎn)換架構(gòu)(Transformer)“在過去5年中,這種深度學(xué)習(xí)模型幾乎推動了所有機器學(xué)習(xí)算法實現(xiàn)突破”,湯曾德說道。這種ANN通過調(diào)整連接的強度來建造更精確的數(shù)據(jù)表征,在AlphaFold2中用于處理蛋白質(zhì)的演化和結(jié)構(gòu)數(shù)據(jù)。隨后,這些數(shù)據(jù)會被第二個Transformer架構(gòu)用來預(yù)測一個蛋白質(zhì)的三維結(jié)構(gòu)。AlphaFold2將預(yù)測的結(jié)構(gòu)與一些修正數(shù)據(jù)繼續(xù)輸入這些架構(gòu)中,以進一步優(yōu)化預(yù)測的蛋白質(zhì)結(jié)構(gòu)。
“當(dāng)我們剛開始研發(fā)AlphaFold2時,算法表現(xiàn)得非常糟糕,但并沒有我們預(yù)期的那么糟。”江珀說,“它得到了一些看起來有點像蛋白質(zhì)的螺旋結(jié)構(gòu)。”但隨著他們進一步優(yōu)化算法,他們注意到預(yù)測的效率和準確性都大幅提高。“這確實讓人有些害怕。”江珀說道,“如果它表現(xiàn)得太好,通常意味著你做錯了什么。”但他們檢查后沒有發(fā)現(xiàn)任何問題,AlphaFold2確實在正常工作。
團隊決定進行一項內(nèi)部實驗,看看他們的系統(tǒng)是否對生物學(xué)家有所幫助。他們挑選了大約50篇發(fā)表在《科學(xué)》(Science)、《自然》(Nature)和《細胞》(Cell)等頂級期刊上的論文。這些論文不僅描述了一種新的蛋白質(zhì)結(jié)構(gòu),還從蛋白質(zhì)的結(jié)構(gòu)中得出了一些關(guān)于其功能的見解。他們想看看AlphaFold2的表現(xiàn)能否與實驗人員費時費力獲得的研究成果相媲美。
于是,他們將這些氨基酸序列輸入AlphaFold2的預(yù)測引擎。對于每個序列,它給出的預(yù)測都很接近論文中的實驗獲得的蛋白質(zhì)結(jié)構(gòu)。然而,在DeepMind團隊看來,這仍然不夠準確,這些結(jié)構(gòu)中缺少實驗研究人員從蛋白質(zhì)中獲得的一些關(guān)鍵細節(jié)。“你認為自己跑完了比賽,卻發(fā)現(xiàn)只是跑了一半,”江珀說道。在接下來的6個月里,團隊進一步優(yōu)化了系統(tǒng),一點一點地改進細節(jié)。在2020年CASP的蛋白質(zhì)結(jié)構(gòu)預(yù)測名單發(fā)布前幾周,他們又進行了另一次有效性測試,江珀對這次結(jié)果感到滿意。DeepMind在2020年春季向CASP提交了他們的預(yù)測結(jié)果,接下來是等待最終結(jié)果。
震驚世界
到初夏時,莫爾特收到了一封來自CASP評估員的電子郵件,寫著“看看這個,真是令人印象深刻”。郵件的附件是一個AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)。莫爾特非常驚訝,但他認為這只是一次偶然的成功。
緊接著,他收到了一封又一封這樣的電子郵件。“這很不尋常,”他回憶起當(dāng)時的想法。有3個、4個甚至一大堆近乎完美的蛋白質(zhì)預(yù)測結(jié)構(gòu),而它們?nèi)縼碜訟lphaFold2。到夏末時,莫爾特說,“我們迅速意識到,有一些極其超乎想象的事情發(fā)生了。”
CASP評估員會將每個提交的蛋白質(zhì)預(yù)測結(jié)構(gòu)與相對應(yīng)的、經(jīng)過實驗獲得并驗證的結(jié)構(gòu)進行比較,給出評分。滿分為100分,意味著預(yù)測的結(jié)構(gòu)與實際結(jié)構(gòu)中的每一個原子都能完美匹配。莫爾特一直認為,任何超過90分的結(jié)果都能表明算法已經(jīng)有效地解決了蛋白質(zhì)的結(jié)構(gòu)預(yù)測問題。AlphaFold2預(yù)測的大多數(shù)結(jié)構(gòu)都已經(jīng)達到甚至超過了90分。會議召開的前幾個月,莫爾特打電話告訴了江珀這個消息。“我激動得爆了粗口,”江珀回憶道,“妻子當(dāng)時還問我是否還好。”
2020年12月,新冠疫情暴發(fā)不足一年之際,江珀在CASP的視頻會議上展示了AlphaFold2。和其他與會者一樣,瓊斯在家觀看了會議。“我完全呆在那里……看著一切徐徐展開,”他說,“我沒有發(fā)泄情緒的途徑,因為同事們都不在身邊……我們都處于疫情防控中,哪也去不了。”
對于任何不是ANN專家的人來說,其中的概念聽起來會都很復(fù)雜。不過即便如此,結(jié)論卻很明確:DeepMind已經(jīng)解決了蛋白質(zhì)的結(jié)構(gòu)預(yù)測問題,他們開發(fā)的AlphaFold2能夠基于蛋白質(zhì)的氨基酸序列來準確預(yù)測其結(jié)構(gòu)。“唉,我最喜歡的課題完蛋了,”瓊斯回憶道,“DeepMind殺死了比賽,一切都結(jié)束了。”多年以來,阿納斯塔西斯佩拉基斯(Anastassis Perrakis)一直向CASP提交未發(fā)表的蛋白質(zhì)結(jié)構(gòu)的實驗結(jié)果以供比賽使用。當(dāng)他看到AlphaFold2預(yù)測的、他的研究團隊辛苦獲得的一個蛋白質(zhì)結(jié)構(gòu)時,他心想:“完了。”AlphaFold2完全正確地預(yù)測了該蛋白質(zhì)的結(jié)構(gòu)。在疫情防控期間,獨自在家的科學(xué)家們一致認為蛋白質(zhì)科學(xué)的世界至此永遠改變了。當(dāng)他們展望這片新的領(lǐng)域時,心中只有一個問題:接下來怎么辦?
從預(yù)測到創(chuàng)造
結(jié)構(gòu)生物學(xué)家突然陷入了混亂。“一開始,許多人進行了深刻的反思”,西爾維奧托薩托(Silvio Tosatto)說道,他從全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽(CASP)的早期就開始參加這項比賽。一些結(jié)構(gòu)生物學(xué)家擔(dān)心,他們的工作可能會變得過時。另一些人則表現(xiàn)出防御性姿態(tài),聲稱“阿爾法折疊2”(AlphaFold2)的預(yù)測結(jié)果并不準確。
這一刻,那些長期致力于解決蛋白質(zhì)結(jié)構(gòu)預(yù)測問題的計算生物學(xué)家感到苦樂參半,他們其中一些人甚至已經(jīng)研究了數(shù)十年時間。CASP賽后,穆罕默德庫雷希(Mohammed AlQuraishi)撰寫了一篇博客文章,其中引用了一位與會者的話,他形容這感覺就像自己的孩子第一次離開家。
盡管對這種備受矚目的新工具感到不安,但許多科學(xué)家還是欣喜若狂。過去,那些不從事蛋白質(zhì)結(jié)構(gòu)研究的科學(xué)家,在進行涉及多學(xué)科問題的研究時,必須與結(jié)構(gòu)生物學(xué)家合作,才能確定實驗中的蛋白質(zhì)結(jié)構(gòu)。現(xiàn)在,他們只需按幾個按鈕,只靠自己就能得到結(jié)構(gòu)。
在媒體上,AlphaFold2被形容為將“改變一切”的嶄新的人工智能(AI)突破。但科學(xué)家花了數(shù)月甚至數(shù)年的時間,才終于理清AlphaFold2的能力和局限性。大約是在約翰江珀(John Jumper)演講的6個月后,谷歌子公司“深度思維”(DeepMind)發(fā)表了他們的結(jié)果,并公開了AlphaFold2的底層代碼。生物學(xué)家開始嘗試使用這個工具。阿納斯塔西斯佩拉基斯(Anastassis Perrakis)說:“AlphaFold2發(fā)布的第二天,我們就試著把它裝到了我們的圖形處理單元(GPU)服務(wù)器上。”
珍妮特桑頓(Janet Thornton)表示:“我原本以為AlphaFold2會失敗,但它實際上取得了驚人的成功。”漸漸地,人們開始意識到,AlphaFold2不僅不是一種威脅,反而可能成為加速研究的催化劑。它沒有讓結(jié)構(gòu)生物學(xué)家失業(yè),而是給他們提供了一個新的工具,讓他們更好地完成工作。海倫沃爾登(Helen Walden)說:“如果你只是把結(jié)構(gòu)生物學(xué)家看作解析蛋白質(zhì)結(jié)構(gòu)的技術(shù)專家,那么是的,結(jié)構(gòu)生物學(xué)家當(dāng)然會失業(yè)。”但這樣說就好比認為,人類基因組計劃讓基因組學(xué)家變得多余了,因為他們不再能發(fā)表解析單個基因序列的論文了。
在許多情況下,結(jié)構(gòu)生物學(xué)家的目標是通過研究蛋白質(zhì)的結(jié)構(gòu)來發(fā)現(xiàn)其功能。有了AlphaFold2,他們就能基于這種工具在幾分鐘內(nèi)生成的蛋白質(zhì)結(jié)構(gòu),提出關(guān)于蛋白質(zhì)功能的假設(shè),而不必事先通過數(shù)月甚至數(shù)年的實驗來解析結(jié)構(gòu)。保羅亞當(dāng)斯(Paul Adams)說:“它在許多方面都推動結(jié)構(gòu)生物學(xué)向著更好的方向發(fā)展,這并非一件壞事,反而會讓這個研究領(lǐng)域變得更加令人興奮。”
然而,AlphaFold2并未像一些人預(yù)測的那樣立即帶來各種新藥。研究人員很快了解到,這個工具也有局限性:AlphaFold2的預(yù)測并不完美。佩拉基斯說,它預(yù)測的結(jié)果仍需通過實驗驗證,但你“可以更快地開始具體結(jié)構(gòu)的研究”,F(xiàn)在,當(dāng)他的學(xué)生開始一個新課題時,他們會首先使用AlphaFold2預(yù)測特定蛋白質(zhì)的結(jié)構(gòu),然后再用實驗驗證。
佩拉基斯認為,他和其他研究人員仍會在一定程度上繼續(xù)使用X射線晶體學(xué)。但是,為了得到初始的蛋白質(zhì)結(jié)構(gòu),許多人已經(jīng)開始將深度學(xué)習(xí)預(yù)測的蛋白質(zhì)結(jié)構(gòu)與先進的電子顯微鏡技術(shù)(例如冷凍電子顯微術(shù))結(jié)合使用。冷凍電子顯微術(shù)(cryo-EM)又稱冷凍電鏡術(shù),是一種用于分析快速冷凍的含水生物樣品的透射電鏡成像技術(shù),通過電子轟擊樣品進行分析。將這兩種技術(shù)相結(jié)合之后,研究人員就能迅速開展對蛋白質(zhì)功能的研究,專注于研究更有趣的科學(xué)問題。庫雷希表示,AlphaFold2“極大推動了”冷凍電子顯微術(shù)的應(yīng)用。
轉(zhuǎn)變已經(jīng)開始了。2022年6月,《科學(xué)》(Science)的一期特刊揭示了人類核孔復(fù)合體近原子水平分辨率的結(jié)構(gòu)。對于這個由30種不同蛋白質(zhì)組成的龐大而復(fù)雜的蛋白質(zhì)復(fù)合體,其結(jié)構(gòu)解析幾十年來一直是生物學(xué)中的難題。這群科學(xué)家使用AlphaFold2的預(yù)測結(jié)果,填補了核孔復(fù)合體中未能用冷凍電子顯微術(shù)解析的部分。江珀表示,當(dāng)他讀到這篇論文,看到其他科學(xué)家利用AlphaFold2取得了生物學(xué)上的突破,就是在那一刻,他意識到“AlphaFold2確實非常重要”。
過去三年中,類似核孔復(fù)合體這樣的發(fā)現(xiàn)點綴了蛋白質(zhì)科學(xué)領(lǐng)域的發(fā)展歷程。AlphaFold2已經(jīng)預(yù)測了許多蛋白質(zhì)結(jié)構(gòu),它們幫助科學(xué)家研究疾病并創(chuàng)造了新的藥物遞送工具。美國博德研究所(Broad Institute)的分子生物學(xué)家張鋒說:“它對我們非常有幫助。”他用AlphaFold2設(shè)計了一種分子注射器,用于將藥物遞送到人體細胞中。除了藥物遞送,了解蛋白質(zhì)的結(jié)構(gòu)也有助于藥物開發(fā):例如,如果研究人員能找到緊密貼合靶標蛋白形狀并能改變其功能的分子,它就有潛力作為藥物。盡管一些研究表明,AlphaFold2的預(yù)測結(jié)果并不如實驗得到的結(jié)構(gòu)有用,但也有研究表明AlphaFold2的預(yù)測結(jié)果同樣有效。總的來看,AI工具對藥物發(fā)現(xiàn)的全面影響仍在逐步顯現(xiàn)。
然而,在預(yù)測已知蛋白質(zhì)的結(jié)構(gòu)和功能之外,一些生物學(xué)家已經(jīng)在嘗試將AlphaFold2用于其他用途。他們轉(zhuǎn)而用人工智能設(shè)計自然界中不存在的蛋白質(zhì),這一技術(shù)對設(shè)計新型藥物至關(guān)重要。
開拓新領(lǐng)域
觀看了江珀在2020年CASP會議上的演講后,戴維貝克(David Baker)幾乎立即就回到了他的羅塞塔(Rosetta)算法工作中。當(dāng)時,谷歌尚未公開AlphaFold2的底層源代碼。即便如此,“我們開始嘗試他們介紹的一些想法”,貝克說道。就在谷歌DeepMind在《自然》(Nature)上發(fā)表AlphaFold2的同一天,貝克和團隊宣布了AlphaFold2的競爭對手“羅塞塔折疊”(RoseTTAFold),它也有極高的蛋白質(zhì)結(jié)構(gòu)預(yù)測精確度。RoseTTAFold同樣使用深度學(xué)習(xí)來預(yù)測蛋白質(zhì)結(jié)構(gòu),但其底層架構(gòu)與AlphaFold2非常不同。托薩托說:“科學(xué)想法一旦被提出,人們就可能對其進行逆向工程并嘗試在其基礎(chǔ)上進行構(gòu)建,至少對那些擁有足夠資源的人而言是這樣。”
RoseTTAFold并不孤單。包括美國元宇宙(Meta)公司在內(nèi)的其他AlphaFold2競爭者也開發(fā)了自己的算法,用于解決蛋白質(zhì)結(jié)構(gòu)預(yù)測或相關(guān)問題。一些公司已經(jīng)擴展到了蛋白質(zhì)以外的領(lǐng)域,例如拉斐爾湯曾德(Raphael Townshend)所在的美國生物科技初創(chuàng)公司“原子人工智能”(Atomic AI),就使用深度學(xué)習(xí)來解析RNA的結(jié)構(gòu)。然而,在單分子結(jié)構(gòu)預(yù)測領(lǐng)域,目前還沒有算法能達到AlphaFold2的精度,桑頓說道。“我相信他們最終會做到這種精度,但我認為要再現(xiàn)另一個那樣的‘AlphaFold2時刻’將會非常困難。”
CASP建立了一種卓有成效的競爭傳統(tǒng)。至少在大眾眼中,貝克和江珀將這種競爭延續(xù)了下去。貝克說:“他們可能覺得我在與他們競爭,但我覺得他們只是啟發(fā)了我們。”江珀則對此表示歡迎,他說:“讓人們在這個科學(xué)基礎(chǔ)上繼續(xù)開發(fā)是非常重要的。如果AlphaFold2沒有知識上的傳承,那對我來說將是一件很悲哀的事。”
貝克已經(jīng)在發(fā)展他的項目傳承,重點關(guān)注蛋白質(zhì)科學(xué)的新前沿領(lǐng)域蛋白質(zhì)設(shè)計。此前,生物學(xué)家受限于研究自然界中已經(jīng)存在的蛋白質(zhì),但在貝克設(shè)想的科學(xué)中,他們可以設(shè)計全新的蛋白質(zhì),這些人為設(shè)計的蛋白質(zhì)可以專門用于利用陽光、分解塑料或作為藥物和疫苗的基矗
荷蘭胡布雷赫特研究所(Hubrecht Institute)的結(jié)構(gòu)生物學(xué)家丹尼薩托(Danny Sahtoe)曾在貝克的指導(dǎo)下完成博士后研究,他說:“對于目前自然界中不同類型的蛋白質(zhì)而言,其結(jié)構(gòu)或形狀的數(shù)量相當(dāng)有限。理論上,還存在更多的可能性。如果能有更多形狀,那也意味著蛋白質(zhì)可以擁有更多功能。”
現(xiàn)任美國華盛頓大學(xué)(University of Washington)蛋白質(zhì)設(shè)計研究所(Institute for Protein Design)所長的貝克說,蛋白質(zhì)設(shè)計本質(zhì)上是“蛋白質(zhì)結(jié)構(gòu)預(yù)測的逆向問題”。使用蛋白質(zhì)結(jié)構(gòu)預(yù)測算法時,科學(xué)家會將氨基酸序列輸入深度學(xué)習(xí)算法,并讓它輸出蛋白質(zhì)結(jié)構(gòu)。而蛋白質(zhì)設(shè)計則不同,蛋白質(zhì)設(shè)計師是將特定的蛋白質(zhì)結(jié)構(gòu)輸入算法,然后讓它輸出氨基酸序列。緊接著,他們會基于模型輸出的序列,再在實驗室中構(gòu)建出設(shè)計的蛋白質(zhì)。
AlphaFold2和RoseTTAFold本身無法生成這些序列,因為它們的編程邏輯執(zhí)行的是相反的操作。但貝克基于RoseTTAFold的神經(jīng)架構(gòu),創(chuàng)建了一個專門用于設(shè)計蛋白質(zhì)的迭代版本,名為“RoseTTAFold擴散”(RoseTTAFold diffusion),簡稱“RF擴散”。薩托說,蛋白質(zhì)設(shè)計領(lǐng)域已經(jīng)存在了很長時間,但深度學(xué)習(xí)加速了這一進程,它使切實可行的蛋白質(zhì)計算機模型的設(shè)計過程變得“極其快速”。過去,訓(xùn)練有素的蛋白質(zhì)設(shè)計師需要數(shù)周或數(shù)月的時間,才能創(chuàng)建一個新蛋白質(zhì)的骨架。而現(xiàn)在,他們幾天之內(nèi)甚至一夜之間就能完成。
貝克還更新了Foldit游戲,將他的執(zhí)念融入其中:玩家不再是構(gòu)建蛋白質(zhì)結(jié)構(gòu),而是設(shè)計蛋白質(zhì)。這一嘗試確實富有成效;谝恍┩婕以O(shè)計的蛋白質(zhì),貝克實驗室已經(jīng)撰寫了多篇論文。而且一名世界頂級Foldit玩家如今正就讀于華盛頓大學(xué),是貝克一位同事的研究生。
貝克說:“我們真的理解蛋白質(zhì)的折疊過程嗎?如果我們設(shè)計出能折疊成新結(jié)構(gòu)的新序列,那就表明我們對蛋白質(zhì)折疊有了相當(dāng)多的了解。從某種意義上說,你也可以將它看作蛋白質(zhì)折疊問題的一種解決方案。”
相信與懷疑
AlphaFold2的成功無疑改變了生物學(xué)家對人工智能的態(tài)度。長期以來,許多實驗生物學(xué)家并不相信計算方法,他們覺得一些機器學(xué)習(xí)方法可能會讓數(shù)據(jù)看起來很好,而實際使用時并非如此。然而,谷歌DeepMind的成功明確證明了“你可以用它進行嚴肅的科學(xué)研究”,庫雷希說道,F(xiàn)在,任何對這件事的懷疑都會被人反問:“那AlphaFold2呢?”許錦波,那位曾推進卷積神經(jīng)網(wǎng)絡(luò)研究的計算生物學(xué)家說:“現(xiàn)在,生物學(xué)家開始相信我們的預(yù)測結(jié)果。而在以前,生物學(xué)家總是懷疑我們的預(yù)測是否可靠。”
這種信任的建立要歸功于AlphaFold2平臺的一個特性:它不僅能生成蛋白質(zhì)的三維模型,還會自我評估預(yù)測的準確性,對結(jié)構(gòu)中的每個部分給出從0到100的置信度評分。2022年7月,谷歌DeepMind發(fā)布了2.18億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測,幾乎涵蓋了世界上所有已知蛋白質(zhì)。之后,亞當(dāng)斯便決定開始分析AlphaFold2的自我評估結(jié)果。他將這些預(yù)測的結(jié)構(gòu)與已通過實驗解析的蛋白質(zhì)結(jié)構(gòu)進行比較,并獨立評估它們的準確性。
亞當(dāng)斯說:“好消息是,當(dāng)AlphaFold2認為自己正確的時候,它通常非常正確。當(dāng)它認為自己不對時,它通常也確實不對。”然而,在AlphaFold2對其預(yù)測結(jié)果“非常有信心”(置信度評分不低于90分,滿分為100分)的情況下,大約在10%的例子中,預(yù)測結(jié)果與實驗結(jié)果不一致。
AI系統(tǒng)似乎具有一定的自我懷疑能力,這可能會導(dǎo)致人們過度依賴其結(jié)論。大多數(shù)生物學(xué)家將AlphaFold2視為一種預(yù)測工具,但也有一些人走得太遠了。一些過去與結(jié)構(gòu)生物學(xué)家合作的細胞生物學(xué)家和生物化學(xué)家,甚至用AlphaFold2取代了結(jié)構(gòu)生物學(xué)家,并將其預(yù)測視為真理。佩拉基斯說,有些科學(xué)家在發(fā)表論文中展示的蛋白質(zhì)結(jié)構(gòu)顯然是錯誤的,任何結(jié)構(gòu)生物學(xué)家都能看出來。“但他們會說:‘好吧,那是AlphaFold2預(yù)測的結(jié)構(gòu)。’”美國國立衛(wèi)生研究院(NIH)的研究員勞倫波特(Lauren Porter)表示:“一些人對這些深度學(xué)習(xí)模型的能力過于自信了。我們應(yīng)該盡可能多地使用這些深度學(xué)習(xí)模型,但也需要以謹慎和謙遜的態(tài)度來對待它們。”
戴維瓊斯(David Jones)聽說,有些從事計算解析蛋白質(zhì)結(jié)構(gòu)的科學(xué)家在爭取資金時遇到了困難。他說:“你知道的,普遍的看法是,DeepMind已經(jīng)做到了,那為什么你還在做這個方向?”但瓊斯認為,這項工作仍然是必要的,因為AlphaFold2并非無懈可擊,他說:“(距離真正解決該領(lǐng)域的所有問題)依舊存在非常大的差距,有些事情它顯然做不到。”
雖然AlphaFold2在預(yù)測小型、簡單蛋白質(zhì)的結(jié)構(gòu)方面表現(xiàn)出色,但在預(yù)測包含多個組成部分的蛋白質(zhì)復(fù)合體時,其準確性仍然較低。它也無法考慮蛋白質(zhì)的環(huán)境因素或蛋白質(zhì)與其他分子的結(jié)合,而這些因素會在自然狀態(tài)下改變蛋白質(zhì)的形狀。例如,有時蛋白質(zhì)需要被特定的離子、鹽或金屬包圍才能正確折疊。沃爾登說:“目前,AlphaFold2在理解蛋白質(zhì)所處環(huán)境方面還有些問題。”她的團隊已經(jīng)通過實驗解析了幾個AlphaFold2無法預(yù)測的結(jié)構(gòu)。
自然界中還存在幾類動態(tài)的蛋白質(zhì),它們的功能十分重要,但AlphaFold2對它們的結(jié)構(gòu)預(yù)測準確性較差。這些會發(fā)生形變的蛋白質(zhì),也被稱為折疊轉(zhuǎn)換蛋白質(zhì)(fold-switching protein),它們的結(jié)構(gòu)并不是靜態(tài)的,其形狀會在與其他分子相互作用時發(fā)生變化。即使是相同的氨基酸序列,有些蛋白質(zhì)也會折疊成截然不同的形狀。波特說,折疊轉(zhuǎn)換蛋白質(zhì)“挑戰(zhàn)了序列編碼單一結(jié)構(gòu)的范式,因為它們顯然不只有一種結(jié)構(gòu)”。與用于訓(xùn)練DeepMind算法的數(shù)十萬種靜態(tài)、單一結(jié)構(gòu)的蛋白質(zhì)相比,用于訓(xùn)練的折疊轉(zhuǎn)換蛋白質(zhì)只有大約100個例子,盡管肯定還有更多此類蛋白質(zhì)存在。波特表示,“一般來說,這些算法是為了預(yù)測單個折疊結(jié)構(gòu)而設(shè)計的”,因此有這樣的表現(xiàn)也許并不令人意外。
還有一些蛋白質(zhì)會像汽車專賣店外的充氣人偶一樣胡亂擺動。固有無序蛋白(IDP)或固有無序蛋白質(zhì)區(qū)域缺乏穩(wěn)定的結(jié)構(gòu),它們會不斷地搖擺和重新形成。丹麥哥本哈根大學(xué)(University of Copenhagen)的計算蛋白質(zhì)生物物理學(xué)教授克雷斯滕林多夫-拉森(Kresten Lindorff-Larsen)說:“它們在很多方面都被人忽視了,僅僅是因為它們有點煩人。”大約44%的人類蛋白質(zhì)都包含一個由至少30個氨基酸組成的無序區(qū)域,“這是一個相對較大的比例”,林多夫-拉森表示。AlphaFold2能預(yù)測某個區(qū)域可能是固有無序的,但它不能告訴你這種無序狀態(tài)具體是什么樣的。
對于江珀來說,AlphaFold2最讓他失望的點在于,它無法顯示兩種僅相差一個氨基酸(即點突變)的蛋白質(zhì)之間的結(jié)構(gòu)差異。他說,點突變“有時會對蛋白質(zhì)的結(jié)構(gòu)和功能產(chǎn)生相當(dāng)顯著的影響,但AlphaFold2常常會忽視這些區(qū)別”,它會為兩個序列生成相同的結(jié)構(gòu)。2023年9月,DeepMind發(fā)布了AlphaMissense,這是一種能預(yù)測此類點突變影響的深度學(xué)習(xí)算法。它無法展示結(jié)構(gòu)上的變化,但會根據(jù)已知致病蛋白質(zhì)中類似突變的信息,告知用戶該突變是否可能導(dǎo)致蛋白質(zhì)致病或出現(xiàn)功能障礙。
然而,就算AlphaFold2能夠完美地預(yù)測所有蛋白質(zhì)的結(jié)構(gòu),它仍然遠未達到模擬生命的程度。因為在細胞中,蛋白質(zhì)從來都不是單獨行動的。
AlphaFold3誕生
細胞內(nèi)部復(fù)雜而混亂。細胞的外膜包裹著細胞內(nèi)的生化環(huán)境,這里密集地擠滿了各種分子部件蛋白質(zhì)、信號分子、信使RNA和細胞器等等。蛋白質(zhì)彼此之間以及與其他分子相互結(jié)合,這會改變它們的形態(tài)與功能。
盡管AlphaFold2在預(yù)測單個蛋白質(zhì)結(jié)構(gòu)方面表現(xiàn)出色,但它并未幫助生物學(xué)家更深入地理解蛋白質(zhì)在這種復(fù)雜天然環(huán)境中的表現(xiàn)。這正是該領(lǐng)域當(dāng)前研究的方向。蛋白質(zhì)科學(xué)領(lǐng)域的兩大人工智能巨頭谷歌DeepMind和貝克領(lǐng)導(dǎo)的蛋白質(zhì)設(shè)計研究所,目前正在改進他們的深度學(xué)習(xí)算法,用于預(yù)測蛋白質(zhì)在與其他分子相互作用時的結(jié)構(gòu)。2024年春天,兩個機構(gòu)都發(fā)表了論文,描述了他們在該領(lǐng)域的類似進展。他們更新的算法AlphaFold3和RoseTTAFold All-Atom,使他們能預(yù)測蛋白質(zhì)與蛋白質(zhì)、DNA、RNA和其他小分子結(jié)合時的結(jié)構(gòu)。
生物學(xué)家才剛剛開始測試這些更新。庫雷希表示,到目前為止,AlphaFold3的準確性遠高于RoseTTAFold All-Atom,但這次并不像“AlphaFold2時刻”那樣是一次巨大的飛躍。對于預(yù)測一些大分子,例如RNA的結(jié)構(gòu),它的準確性仍低于其他基于物理的系統(tǒng)和實驗方法。
即便如此,這些新算法仍朝著正確的方向邁出了一步。蛋白質(zhì)與其他分子之間的相互作用對其在細胞中的功能至關(guān)重要。為了開發(fā)出能與蛋白質(zhì)結(jié)合并按需改變其活性的藥物,研究人員需要了解兩者形成的復(fù)合體的結(jié)構(gòu)。不過亞當(dāng)斯表示,兩種算法都不太可能在短期內(nèi)帶來新藥。他說:“這兩種方法的準確性仍然有限,但它們都在原有基礎(chǔ)上有了巨大進步。”
DeepMind的新產(chǎn)品還有一個重大變化。AlphaFold2的底層代碼是開源的,因此其他研究人員可以研究該算法并將其改造后用于自己的項目。然而,谷歌目前仍選擇將AlphaFold3的源代碼作為商業(yè)機密保護起來,而不是公開分享。庫雷希說:“至少目前,沒人能像使用AlphaFold2那樣運行和使用AlphaFold3。”
早在AlphaFold3發(fā)布之前,研究人員就已經(jīng)在測試AlphaFold2,看它能否提供有關(guān)蛋白質(zhì)在不同構(gòu)象下的有用信息。美國布朗大學(xué)(Brown University)的化學(xué)與物理學(xué)副教授布倫達魯本斯坦(Brenda Rubenstein)對激酶很感興趣,這是一類能激活其他蛋白質(zhì)的蛋白質(zhì)。具體來說,她想了解一種會導(dǎo)致癌癥的激酶的作用機制,以便她針對這種激酶開發(fā)更精確的藥物。魯本斯坦的實驗室使用了一種基于物理的方法,通過牛頓定律映射原子的三維坐標來對激酶的結(jié)構(gòu)建模。這項研究已經(jīng)耗費了兩年半的時間。
“大約一年前,我們說:能不能更快地完成這個過程呢?”魯本斯坦說道。于是,他們嘗試以一種新的方式使用AlphaFold2。通過給算法輸入相關(guān)蛋白質(zhì)的數(shù)據(jù),她發(fā)現(xiàn)AlphaFold2能以超過80%的準確性,預(yù)測該激酶在不同構(gòu)象下的結(jié)構(gòu)。庫雷希說,“如果用正確的方式使用AlphaFold2,你就能讓它輸出多個不同構(gòu)象”,魯本斯坦的實驗室是發(fā)現(xiàn)這一點的幾個實驗室之一,“這件事非常振奮人心”。
庫雷希希望,深度學(xué)習(xí)能在2040年前實現(xiàn)模擬整個細胞及其內(nèi)部的所有結(jié)構(gòu)和動力學(xué)。然而,要實現(xiàn)這一目標,需要在實驗和計算兩個方面都取得飛躍性進展。
捷足先登
對許多生物學(xué)家而言,AlphaFold2是他們一直在等待的突破。CASP的目標一直都是:創(chuàng)建能根據(jù)序列預(yù)測蛋白質(zhì)結(jié)構(gòu)的計算工具。盡管如此,許多人忍不住要問:在如此多專家已經(jīng)奮斗了幾十年的情況下,為何一個相對較新的團隊卻能破解蛋白質(zhì)的代碼呢?不可否認,谷歌DeepMind的計算機和蛋白質(zhì)科學(xué)家團隊為這個問題帶來了全新的見解。與此同時,蛋白質(zhì)科學(xué)的土壤已變得肥沃,已經(jīng)準備好迎接深度學(xué)習(xí)的革命,庫雷希說道,“這些事情不是憑空出現(xiàn)的”。
在2020年CASP賽前,許多研究人員都已經(jīng)預(yù)料到,蛋白質(zhì)結(jié)構(gòu)預(yù)測的突破會通過人工智能實現(xiàn)。湯曾德說:“一切都在朝那個方向發(fā)展。”但他們沒想到這種突破會來自一家市值數(shù)十億美元的科技公司,也沒想到它會來得這么快。一些人認為,AlphaFold2并不是什么新的科學(xué)成就,不過是巧妙的工程設(shè)計。一些人對貝克的算法沒能奪冠感到驚訝,而另一些人則并不意外,因為谷歌DeepMind擁有無與倫比的資源。桑頓說,每年大約有100個實驗室參加CASP,盡管他們已經(jīng)開始采用AI技術(shù),但他們“可能沒有DeepMind那樣的AI專業(yè)知識,也沒有那樣的算力,而DeepMind基本上可以使用無限的算力”。
桑頓還推測,谷歌在蛋白質(zhì)科學(xué)方面缺乏專業(yè)知識,這反而可能釋放了他們的創(chuàng)造力。她表示,“他們心無旁騖”,專注于構(gòu)建一個出色的人工神經(jīng)網(wǎng)絡(luò)。而蛋白質(zhì)生物學(xué)家則背負了很多包袱:在開發(fā)AI工具時,他們總希望能捕捉到蛋白質(zhì)折疊過程中原子層面的分子物理和化學(xué)過程。DeepMind則采用了不同的方法:把氨基酸序列數(shù)據(jù)轉(zhuǎn)化為三維結(jié)構(gòu),至于如何實現(xiàn),這并不重要。沃爾登表示:“他們并沒有試圖解決蛋白質(zhì)折疊問題,我想這是此前許多預(yù)測方法嘗試在做的事。相反,他們實際上只是簡單粗暴地將原子的最終位置映射到空間中。有趣的是,他們可能正是因此才解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測問題。”
對一些生物學(xué)家而言,這種方法沒能解決蛋白質(zhì)折疊問題。從結(jié)構(gòu)生物學(xué)的早期階段開始,研究人員就希望能了解氨基酸鏈折疊成蛋白質(zhì)這一過程背后的規(guī)則。隨著AlphaFold2的出現(xiàn),大多數(shù)生物學(xué)家認為,結(jié)構(gòu)預(yù)測問題已經(jīng)解決。然而,蛋白質(zhì)折疊問題并未解決。埃倫鐘(Ellen Zhong)說:“現(xiàn)在,你只是有了這個黑箱,它能以某種方式告訴你折疊后的狀態(tài),卻無法告訴你究竟如何到達那個狀態(tài)。”布朗大學(xué)的計算機科學(xué)家邁克爾利特曼(Michael Littman)則表示,“這不是科學(xué)家解決問題的方式。”
美國約翰霍普金斯大學(xué)(Johns Hopkins University)的生物物理學(xué)榮譽退休教授喬治羅斯(George Rose)說,這聽起來可能像是“語義上的爭論,但當(dāng)然不是這樣”。AlphaFold2可以基于它對數(shù)十萬個蛋白質(zhì)結(jié)構(gòu)的分析,識別出給定氨基酸序列可能的折疊模式。但它無法告訴科學(xué)家關(guān)于蛋白質(zhì)折疊過程的任何信息。羅斯說:“對許多人而言,你并不需要知道這些,他們也不在乎。但科學(xué),至少在過去500年左右的時間里,它一直致力于理解事情的發(fā)生過程。”羅斯認為,要理解以蛋白質(zhì)為基礎(chǔ)的生命動態(tài)、機制、功能和本質(zhì),你需要一個完整的故事,而這正是深度學(xué)習(xí)算法無法告訴我們的。
對約翰莫爾特(John Moult)而言,機器做到了一些自己無法理解的事情,這沒什么關(guān)系。他說:“我們都習(xí)慣了讓機器做我們做不到的事情。比如說,我沒法跑得像我的車那么快。”而對于那些試圖研究蛋白質(zhì),并且只需要大致了解其外觀的分子生物學(xué)家來說,如何達到這個目標也并不重要。
波特表示:“但在我們真正了解蛋白質(zhì)折疊的原理之前,我們永遠不會有100%可靠的預(yù)測方法。我們必須了解基本的物理原理,才能做出最有依據(jù)的預(yù)測。”庫雷希則說:“我們一直在調(diào)整目標。我確實認為,核心問題已經(jīng)解決了。所以現(xiàn)在的重點是,接下來會發(fā)生什么。”
即使生物學(xué)家還在繼續(xù)爭論這些話題,但對于這個無疑已經(jīng)發(fā)生改變的領(lǐng)域,其他人已經(jīng)開始展望未來,同時也回顧了其近來的發(fā)展歷程。有時,佩拉基斯會對過去的工作方式產(chǎn)生一陣懷舊之情。2022年,他的團隊用X射線晶體學(xué)解析了一種參與微管(為細胞提供結(jié)構(gòu)支撐的巨型棒狀結(jié)構(gòu))修飾的酶的結(jié)構(gòu)。佩拉基斯說:“我意識到,我再也不會那樣做了。過去,在工作了幾個月之后,第一次看到結(jié)構(gòu)被解析出來的時候,會讓人有一種非常特別的滿足感。”
AlphaFold2并沒有讓那些實驗變得過時,相反,它凸顯了這些實驗的必要性。它將歷史上截然不同的兩個學(xué)科聯(lián)系在了一起,開啟了一場新的、激動人心的對話。
新世界
波特感嘆道,70年前,人們認為蛋白質(zhì)是一種膠狀物質(zhì)。“再看看現(xiàn)在我們能看到什么”,無論是自然界中存在的還是人為設(shè)計的蛋白質(zhì),這樣一個龐大的蛋白質(zhì)世界,在我們眼中變成了一個又一個結(jié)構(gòu)。佩拉基斯表示,“相比于AlphaFold誕生之前,如今的蛋白質(zhì)生物學(xué)領(lǐng)域變得更加令人興奮了。”這種興奮來自許多方面,包括基于結(jié)構(gòu)的藥物發(fā)現(xiàn)可能會重新振興,科學(xué)家提出假設(shè)的速度會變快,以及它給理解細胞內(nèi)復(fù)雜的相互作用帶來了希望。庫雷希說:“這種感覺就像是當(dāng)年基因組學(xué)的那場革命。”對于生物學(xué)家,無論是實驗科學(xué)家還是在電腦前運行程序的計算科學(xué)家,這里的數(shù)據(jù)都太多太多了,他們才剛開始弄清楚如何處理這些數(shù)據(jù)。
但正如世界各地由人工智能帶來的其他突破一樣,這一突破也可能存在上限。AlphaFold2的成功建立在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,即那些由耐心的實驗人員精心解析的數(shù)十萬個蛋白質(zhì)結(jié)構(gòu)。盡管AlphaFold3和相關(guān)算法在預(yù)測分子復(fù)合體結(jié)構(gòu)方面已經(jīng)取得了一些成功,但其準確性仍落后于它的前輩在單一蛋白質(zhì)結(jié)構(gòu)上的表現(xiàn),部分原因是可用的訓(xùn)練數(shù)據(jù)顯著減少了。
桑頓說,蛋白質(zhì)結(jié)構(gòu)預(yù)測問題“幾乎是AI解決方案的一個完美案例”,因為算法可以在數(shù)十萬個以統(tǒng)一方式收集的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)上進行訓(xùn)練。然而,蛋白質(zhì)數(shù)據(jù)庫(PDB)可能只是生物學(xué)中有組織的數(shù)據(jù)共享的特例。如果沒有高質(zhì)量的數(shù)據(jù)用于訓(xùn)練算法,它們也無法做出準確的預(yù)測。江珀表示:“我們很幸運,在我們遇到這個問題時,它正好已經(jīng)到了可以解決的時機。”
沒人知道深度學(xué)習(xí)在解決蛋白質(zhì)結(jié)構(gòu)預(yù)測問題上的成功能否延續(xù)到其他科學(xué)領(lǐng)域,哪怕只是生物學(xué)的其他領(lǐng)域。但像庫雷希這樣的一些人對此持樂觀態(tài)度,他說:“蛋白質(zhì)結(jié)構(gòu)預(yù)測真的只是冰山一角。”例如,化學(xué)家也需要進行成本高昂的計算。庫雷希說,借助深度學(xué)習(xí),這些計算的速度已經(jīng)比以前快了一百萬倍。
人工智能顯然能推動解決特定類型的科學(xué)問題,但在推進知識進展方面,它對科學(xué)家的幫助可能是有限的。庫雷希表示,“歷史上,科學(xué)一直是關(guān)乎理解自然的”,也就是理解生命和宇宙背后的過程。深度學(xué)習(xí)工具揭示的是解決方案而并非過程。如果科學(xué)通過這些工具向前發(fā)展,那它還是真正的科學(xué)嗎?庫雷希繼續(xù)說,“如果你能治愈癌癥,你還會在乎所使用的療法是如何起效的嗎?未來幾年,這將是我們會不斷爭論的問題。”如果許多研究人員決定放棄理解自然的過程,那么人工智能不僅會改變科學(xué),它也會改變科學(xué)家。
與此同時,CASP的組織者們正面臨一個不同的問題:如何延續(xù)他們的競賽和會議。AlphaFold2是CASP的產(chǎn)物,它解決了人們組織這個會議原本要解決的主要問題。莫爾特說:“如今的CASP到底是為了什么?對我們而言,這是一個巨大的沖擊。”2022年,CASP會議在土耳其安塔利亞市舉行。盡管谷歌DeepMind并未參賽,但該團隊的存在感依然很強。瓊斯說:“無非就是人們使用了或多或少的AlphaFold。”他表示,從這個意義上說,谷歌還是贏了。
如今,一些研究人員對參加CASP的興趣也減弱了。許錦波說:“一看到那個結(jié)果,我就轉(zhuǎn)變了研究方向。”也有一些人仍在繼續(xù)改進自己的算法。比如瓊斯仍然涉足結(jié)構(gòu)預(yù)測領(lǐng)域,但這對現(xiàn)在的他來說更多只是一種愛好。諸如庫雷希和貝克等其他人,則在繼續(xù)開發(fā)新的結(jié)構(gòu)預(yù)測和設(shè)計算法。在與一家市值數(shù)十億美元的公司競爭的前景面前,他們毫不畏懼。
莫爾特和會議的組織者們也在努力改進。下一輪CASP已于2024年5月開放報名。他希望深度學(xué)習(xí)能征服結(jié)構(gòu)生物學(xué)的更多方面,比如RNA或生物分子復(fù)合體。莫爾特說:“這種方法已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測這個問題上奏效了,而結(jié)構(gòu)生物學(xué)領(lǐng)域還有許多其他相關(guān)問題。”
下一次CASP會議將于2024年12月在加勒比海碧藍的海水旁舉行。屆時,微風(fēng)和煦,或許討論的氛圍也會十分和睦。曾經(jīng)激烈的跺腳聲早已平息,至少表面上是這樣。今年的競賽會是什么樣子,誰也無法預(yù)測。但如果從過去幾屆CASP中尋找線索的話,莫爾特知道,他只能期待一件事,“那就是驚喜”。
本文選自《環(huán)球科學(xué)》10月刊專題報道“AI重塑結(jié)構(gòu)生物學(xué)”。