來源:MIT Technology Review
人工智能已經(jīng)在藥物研發(fā)和機器人技術(shù)領(lǐng)域取得了突破,同時正在徹底改變我們與機器和網(wǎng)絡(luò)的互動方式。然而,唯一的問題是我們并不完全知道它是如何運作的,也不清楚它為何如此有效。雖然我們對其有一定的了解,但細(xì)節(jié)過于復(fù)雜,難以理清。這是一個潛在的問題:如果我們在不了解其潛在缺陷的情況下將 AI 系統(tǒng)應(yīng)用到諸如醫(yī)療這樣高度敏感的領(lǐng)域,可能會導(dǎo)致嚴(yán)重后果。
Google DeepMind 的一個團隊專注于研究所謂的“機制可解釋性”(mechanistic interpretability),他們一直致力于開發(fā)新方法來幫助我們“揭開蓋子”。7 月底,該團隊發(fā)布了一款名為 Gemma Scope 的工具,旨在幫助研究人員了解 AI 在生成輸出時發(fā)生了什么。希望通過更深入地了解 AI 模型內(nèi)部的工作原理,我們能夠更有效地控制其輸出,從而開發(fā)出更優(yōu)質(zhì)的 AI 系統(tǒng)。
“我希望能直接查看模型內(nèi)部,判斷它是否存在欺騙行為,”Google DeepMind 機制可解釋性團隊負(fù)責(zé)人 Neel Nanda 說。“能夠讀懂模型的‘思想’似乎會大有幫助。”
機制可解釋性,又稱“mech interp”,是一個新興的研究領(lǐng)域,旨在理解神經(jīng)網(wǎng)絡(luò)的實際運作方式。目前,我們大致知道 AI 的運作流程:我們向模型輸入大量數(shù)據(jù),然后在訓(xùn)練結(jié)束時獲得一組模型權(quán)重。這些權(quán)重是決定模型如何做出決策的參數(shù)。雖然我們對輸入數(shù)據(jù)與模型權(quán)重之間的過程有一定的了解,但這些模式可能極其復(fù)雜,且通常難以為人類所理解。
這種情況就像一個老師在批改一份復(fù)雜數(shù)學(xué)題的考試答案。學(xué)生(在這里是 AI)給出了正確的答案,但解題步驟看起來像一堆亂涂亂畫。這假設(shè) AI 總是能得出正確答案,但實際上并非如此;AI 可能會找到一些無關(guān)的模式,并將其視為有效。例如,當(dāng)前的一些 AI 系統(tǒng)可能會錯誤地認(rèn)為 9.11 比 9.8 大。機制可解釋性領(lǐng)域的各種方法正開始逐步揭示這些復(fù)雜現(xiàn)象,幫助我們理解這些“亂涂亂畫”。
“機制可解釋性的一個關(guān)鍵目標(biāo)是試圖逆向工程這些系統(tǒng)內(nèi)部的算法,”Nanda 說!氨热缥覀兘o模型一個提示,讓它寫一首詩,然后它寫出了押韻的句子。那么,它是通過什么算法實現(xiàn)的?我們非常希望能搞明白!
為了在其 AI 模型 Gemma 中發(fā)現(xiàn)特征(即表示更大概念的數(shù)據(jù)類別),DeepMind在每一層中運行了一種名為“稀疏自編碼器”(sparse autoencoder)的工具?梢詫⑾∈枳跃幋a器想象成一臺顯微鏡,放大這些層次的細(xì)節(jié)。例如,當(dāng)你向 Gemma 輸入“chihuahua”(吉娃娃)時,它會觸發(fā)“狗”的特征,從而點亮模型對“狗”的理解。這種工具被稱為“稀疏”的原因在于,它限制了使用的神經(jīng)元數(shù)量,從而推動更高效、更具概括性的數(shù)據(jù)表示。
使用稀疏自編碼器的難點在于如何決定解析的粒度。再次類比顯微鏡:如果放大過度,可能會讓看到的細(xì)節(jié)難以理解;但如果縮放不足,又可能錯過一些有趣的發(fā)現(xiàn)。
DeepMind 的解決方案是在不同的粒度上運行稀疏自編碼器,調(diào)整自編碼器要發(fā)現(xiàn)的特征數(shù)量。該項目的目標(biāo)并不是讓 DeepMind 的研究人員自己徹底分析結(jié)果,而是通過開放源碼的 Gemma 和自編碼器,激發(fā)其他研究人員利用這些工具深入研究,從而獲得新的洞察。通過在模型的每一層上運行自編碼器,研究人員能夠以前所未有的方式繪制出從輸入到輸出的映射過程。
“這對可解釋性研究者來說非常令人興奮,”Anthropic 的研究員 Josh Batson 說!伴_放源碼的模型意味著更多的可解釋性研究可以以這些稀疏自編碼器為基礎(chǔ)展開。這大大降低了學(xué)習(xí)和應(yīng)用這些方法的門檻!
Neuronpedia,一個專注于機制可解釋性的平臺,在 7 月與 DeepMind 合作開發(fā)了 Gemma Scope 的演示版,目前可以在線體驗。在這個演示中,用戶可以測試不同的提示,觀察模型如何分解提示,并點亮哪些激活特征。你還可以調(diào)整模型,比如將“狗”的特征激活值調(diào)到很高,然后再問關(guān)于美國總統(tǒng)的問題,Gemma 可能會插入一些關(guān)于狗的隨機胡言亂語,甚至可能直接開始模仿狗叫。
稀疏自編碼器的一個有趣之處在于它們是無監(jiān)督的,也就是說,它們會自己發(fā)現(xiàn)特征。這往往會帶來一些意想不到的發(fā)現(xiàn),比如模型如何解構(gòu)人類概念!拔覀人最喜歡的特征是‘尷尬特征’,”Neuronpedia 的科學(xué)負(fù)責(zé)人 Joseph Bloom 說!八坪醭霈F(xiàn)在對文本和電影的負(fù)面批評中。這是一個很棒的例子,展示了模型如何捕捉非常人性化的東西。”
Neuronpedia 允許用戶搜索概念,并突出顯示在特定詞語或符號上激活的特征以及激活強度!叭绻汩喿x文本,看到綠色高亮的部分,那是模型認(rèn)為‘尷尬’概念最相關(guān)的地方。最活躍的例子通常是某人在向別人說教,”Bloom 補充道。
一些特征比其他特征更容易追蹤。“對于一個模型來說,最重要的特征之一是欺騙特征,”Neuronpedia 的創(chuàng)始人 Johnny Lin 說!暗胝业揭粋特征專門在模型撒謊時被激活并不容易。從我目前所見,還沒有成功明確找到這種特征并禁用它的案例!
DeepMind 的研究與另一家 AI 公司 Anthropic 在今年 5 月的研究有些相似。當(dāng)時,Anthropic 用稀疏自編碼器分析其模型 Claude 討論舊金山金門大橋時的激活部分。研究人員將與金門大橋相關(guān)的激活值放大到極致,以至于 Claude 不再將自己視為 AI 模型,而是自稱金門大橋,并以金門大橋的身份回答提示。
雖然聽起來有些古怪,但機制可解釋性研究可能非常有用!白鳛橐环N工具,它有助于我們理解模型如何進(jìn)行泛化以及在什么抽象層級工作,這些特征非常重要,”Batson 說。
例如,由 Samuel Marks 領(lǐng)導(dǎo)的一個團隊(他現(xiàn)在就職于 Anthropic)使用稀疏自編碼器發(fā)現(xiàn)了一個特征,表明某個模型將某些職業(yè)與特定性別關(guān)聯(lián)起來。研究人員隨后關(guān)閉了這些性別特征,從而減少了模型中的性別偏見。這項實驗是在一個非常小的模型上完成的,因此尚不清楚其成果是否能應(yīng)用于更大的模型。
機制可解釋性研究還可以幫助我們了解 AI 為何會犯錯。例如,在 AI 判斷 9.11 比 9.8 大的案例中,Transluce 的研究人員發(fā)現(xiàn),這個問題激活了模型中與《圣經(jīng)》章節(jié)和 9 月 11 日相關(guān)的部分。他們推測,AI 可能將數(shù)字理解為日期,并認(rèn)為后者時間更晚,從而得出 9.11 大于 9.8 的結(jié)論。此外,在許多宗教文本中,9.11 章節(jié)通常位于 9.8 章節(jié)之后,這也可能導(dǎo)致 AI 認(rèn)為 9.11 更大。了解了 AI 為何出錯后,研究人員降低了模型中與《圣經(jīng)》和 9 月 11 日相關(guān)的激活值,隨后模型在被重新提問時得出了正確答案。
此外,這類研究還有其他潛在應(yīng)用。目前,大型語言模型(LLM)中內(nèi)置了一種系統(tǒng)級提示,用于應(yīng)對用戶提出諸如“如何制造炸彈”之類的問題。當(dāng)你向 ChatGPT 提出問題時,OpenAI 會首先秘密地提示模型避免回答制造炸彈或其他不當(dāng)內(nèi)容。然而,用戶可以通過巧妙的提示繞過這些限制。
如果模型的創(chuàng)建者能夠明確 AI 系統(tǒng)中與“制造炸彈”相關(guān)的知識節(jié)點,他們理論上可以永久關(guān)閉這些節(jié)點。這樣,即使是最復(fù)雜的提示,也無法讓 AI 提供有關(guān)炸彈制造的答案,因為 AI 系統(tǒng)中將徹底缺乏這方面的信息。
然而,目前的機制可解釋性研究尚不足以實現(xiàn)這種精確控制!耙粋限制在于模型參數(shù)調(diào)整(steering)的效果還不夠好,”Lin 說!袄,當(dāng)我們試圖減少模型中的暴力內(nèi)容時,往往會完全抹殺其武術(shù)相關(guān)的知識。參數(shù)調(diào)整需要更多精細(xì)化的改進(jìn)!币浴罢◤椫圃臁钡闹R為例,它并不是 AI 模型中簡單的開關(guān),而是可能散布在多個部分中。禁用這些知識可能需要同時犧牲 AI 在化學(xué)等領(lǐng)域的部分能力。任何干預(yù)可能都有好處,但也會帶來顯著的代價。
盡管如此,如果我們能夠更深入地理解并清晰地觀察 AI 的“內(nèi)心世界”,DeepMind 和其他公司相信,機制可解釋性可能為 AI 對齊(alignment)提供一種可行的路徑。這一過程的目標(biāo)是確保 AI 真正按照人類的意圖執(zhí)行任務(wù)。
原文鏈接:
https://www.technologyreview.com/2024/11/14/1106871/google-deepmind-has-a-new-way-to-look-inside-an-ais-mind/