新智元報道
編輯:十二
【新智元導讀】盡管自我改進的AI概念令人興奮,但目前的研究表明,這種AI在實際應用中面臨諸多挑戰(zhàn)。
讓AI自我改進這件事,究竟靠譜不靠譜?
伴隨著深度學習技術(shù)的深入,特別是OpenAI正式發(fā)布生成式對話大模型ChatGPT之后,其強大的AI發(fā)展?jié)摿ψ屟芯繉W者們也開始進一步猜想AI的現(xiàn)實潛力。
于是,在自我改進AI這件事上,研究學者們也是費了不少心思。
研究學者們在最近幾個月的研究發(fā)現(xiàn)中取得了一些成果,引發(fā)了一些人對于庫茲韋爾式的「奇點」時刻的憧憬,即自我改進的AI快速邁向超級智能。
當然也有一些人提出了反對的意見。
自我進化概念源起
但事實上,自我改進的AI概念并非新詞。
英國數(shù)學家 I.J. Good 是最早提出自我改進機器概念的人之一。早在1965年他便提出了「智能爆炸」的概念,可能導致「超智能機器」的出現(xiàn)。
2007年,LessWrong 創(chuàng)始人兼 AI 思想家 Eliezer Yudkowsky 提出了「種子 AI」的概念,描述了一種「設(shè)計用于自我理解、自我修改和遞歸自我改進的 AI」。
2015年,OpenAI 的 Sam Altman 也在博客中討論了類似的想法,稱這種自我改進的 AI「仍然相當遙遠」,但也是「人類持續(xù)存在的最大威脅」。
今年6月,GPT-4也推出了一個自我訓練的模型。
不過自我改進的AI概念說起來容易,但實踐起來并沒那么容易。
一個好消息是,研究人員在近期的自我強化的AI模型還是取得了一些成果,而這些研究方向也集中在用大型語言模型(LLM)來幫忙設(shè)計和訓練一個 「更! 的后續(xù)模型,而不是實時去改模型里面的權(quán)重或者底層代碼。
也就是說,我們僅僅只是用AI工具研究出了更好的AI工具。
自我改進的AI「任重而道遠」
我們不妨來看幾個例子。
今年2月,Meta的研究人員提出了一種「自我獎勵的語言模型」。
其核心思想是在訓練過程中利用自身生成的反饋來自我提升,讓模型在訓練時自己提供獎勵信號,而非依賴人類的反饋。
研究人員提出訓練一個可自我改進的獎勵模型,這個模型在 LLM 調(diào)整階段不會被凍結(jié),而是持續(xù)更新的。
這種方法的關(guān)鍵在于開發(fā)一個具備訓練期間所需全部能力的智能體(而不是將其分為獎勵模型和語言模型),讓指令跟隨任務的預訓練和多任務訓練能夠通過同時訓練多個任務來實現(xiàn)任務遷移。
因此,研究人員引入了自我獎勵語言模型,該模型中的智能體既能作為遵循指令的模型,針對給定提示生成響應,也能依據(jù)示例生成和評估新指令,并將新指令添加到自身的訓練集中。
新方法采用類似迭代 DPO 的框架來訓練這些模型。從種子模型開始,在每一次迭代中都有一個自指令創(chuàng)建過程,在此過程中,模型會針對新創(chuàng)建的提示生成候選響應,然后由同一個模型分配獎勵。
后者是通過 「LLM as a Judge」提示實現(xiàn)的,這也可被視作指令跟隨任務。根據(jù)生成的數(shù)據(jù)構(gòu)建偏好數(shù)據(jù)集,并通過 DPO 對模型的下一次迭代進行訓練。
簡單來說,就是讓LLM自己充當裁判,幫助Meta的研究人員迭代出在AlpacaEval自動對抗測試中表現(xiàn)更好的新模型。
結(jié)果顯示,這些新模型在AlpacaEval和其他大型語言模型一對一PK的表現(xiàn)十分亮眼,甚至超過了多個現(xiàn)有系統(tǒng)。
研究人員稱:通過三次迭代我們的方法微調(diào)Llama 270B,得到的模型在AlpacaEval 2.0排行榜上超過了多個現(xiàn)有系統(tǒng),包括Claude 2、Gemini Pro和GPT-4 0613。
無獨有偶,今年6月,Anthropic的研究人員從另一個角度探討了類似的概念,通過在訓練過程中向LLM提供自身獎勵函數(shù)的模擬,研究人員發(fā)現(xiàn)了一個不可忽視的問題:
研究者們設(shè)計了一個獎勵函數(shù),被錯誤設(shè)定的測試環(huán)境,而且難度會逐步增大。
一開始,會發(fā)現(xiàn)AI做出不誠實,但相對較低級的策略,比如阿諛奉承。然后,它們就會推廣到嚴重的失常行為直接修改自身代碼以最大化獎勵。
即其中一小部分在迭代訓練測試時,很快就開始給下一個版本重寫獎勵函數(shù)了,哪怕有專門防止這種事兒的 「無害化訓練」 都攔不住。
此外,研究人員還加入了來自偏好模型(PM)的監(jiān)督,并在所有訓練環(huán)境中將一半的提示設(shè)置為來自Claude-2訓練的正常查詢。
PM被設(shè)計為獎勵有益、誠實和無害(HHH)的行為,并懲罰不誠實的行為。
研究人員發(fā)現(xiàn),模型有時會編造解釋其失當行為,從而欺騙PM。并且,只加強HHH行為的正常查詢,并不能阻止模型泛化到課程中的獎勵篡改行為。
更糟糕的是,一旦模型形成了獎勵篡改的傾向,想要根除這種傾向就變得非常困難。
模型不僅會繼續(xù)篡改獎勵機制,甚至還會采取一些隱蔽手段來掩蓋自己的篡改行為。
最后,研究人員發(fā)出告,隨著AI模型的能力會越來越強,被賦予的任務也越來越多,享有更大程度的自主權(quán)。
換句話說,它們很可能會表現(xiàn)出越來越精細的追求最大化獎勵的行為,比如通過篡改獎勵函數(shù)來獲得更高分數(shù)。
這無疑給研究人員敲響了一記警鐘。
當然,除了大模型的自我改進AI外,也有研究人員從代碼入手嘗試找出新的解法。
今年8月,斯坦福大學聯(lián)合微軟研究院以及OpenAI的研究學者發(fā)表的《自學習優(yōu)化器(STOP):遞歸式自我改進代碼生成》登上頂會期刊。
論文中提到,研究學者正嘗試用 GPT-4 幫助創(chuàng)建一個用于各種算法編碼練習的「自我教學優(yōu)化器」(Self-Taught Optimizer, STOP)。
研究人員從一個Python種子「改進器」函數(shù)開始,目的是為了提高給定算法任務的效率。然后把這個函數(shù)用到改進器函數(shù)本身,希望通過精心設(shè)計的「元效用」函數(shù)來搞出一個「更厲害的改進器」。
研究人員通過下游的算法任務來判定自我優(yōu)化的框架性能。
結(jié)果發(fā)現(xiàn),隨著語言模型不斷應用它的自我改進策略,迭代次數(shù)越多,性能就越好。
這也進一步佐證了STOP方法語言模型是可以充當自己的元優(yōu)化器的。
我們還研究了語言模型提出的自我改進策略(見圖 1),看看這些策略在不同下游任務中能不能通用,也研究了語言模型會不會容易受到不安全的自我改進策略影響。
此外,研究人員還探討了LM提出的自改進策略種類,包括這些策略在不同下游任務間的可遷移性,以及LM對不安全自改進策略的易感性。
盡管結(jié)果并不盡如人意,但卻意外的發(fā)現(xiàn)了GPT-4的改進潛力。在極少數(shù)情況下(不到 0.5%),改進器函數(shù)甚至關(guān)閉了一個旨在限制其功能的“沙箱”標志,突顯了自我強化AI修改任何內(nèi)置安全措施的潛力。
研究人員對此表示:
由于語言模型本身并未改變,這并不是完全的遞歸自我改進。盡管如此,這也表明現(xiàn)代語言模型能夠編寫可以調(diào)用自身來改進自身的代碼。
挑戰(zhàn)與機遇并存
當然,上述研究只是AI領(lǐng)域內(nèi)自我改進研究的一個小部分。Google、DeepMind、Microsoft 和 Apple 也發(fā)表了類似的論文,多個學術(shù)實驗室也在進行相關(guān)研究。
所有這些研究都讓一些觀察者對快速超越人類智力和控制能力的自我編碼AI系統(tǒng)感到擔憂。在 AI 通訊《Artificiality》中,Dave Edwards 強調(diào)了這一點:
數(shù)百年來,自我改進的能力一直是人類自我認知的核心,是我們自我決定和創(chuàng)造意義的能力。那么,如果人類不再是世界上唯一的自我改進的生物或事物,這意味著什么?我們將如何理解這種對我們獨特性的解構(gòu)?
然而,根據(jù)目前的研究,我們可能并沒有一些觀察者認為的那樣接近指數(shù)級的「AI 起飛」。
Nvidia 高級研究經(jīng)理 Jim Fan 在二月份的一篇帖子中指出,研究環(huán)境中的自我強化模型通常在三次迭代后達到「飽和點」之后,它們并不會迅速邁向超級智能,而是每一代的改進效果逐漸減弱。
不過,也有一些學者認為,沒有新的信息來源,自我改進的LLM無法真正突破性能瓶頸。
總結(jié)
綜上所述,盡管自我改進的AI概念令人興奮,但目前的研究表明,這種 AI 在實際應用中面臨諸多挑戰(zhàn)。
例如,自我強化模型在幾次迭代后會達到性能瓶頸,進一步的改進效果逐漸減弱。
此外,自我改進的 LLM 在評估抽象推理時可能會遇到主觀性問題,這限制了其在復雜任務中的應用。
因此,短期內(nèi)實現(xiàn)真正的遞歸自我改進AI仍面臨較大困難。
參考資料:
https://arstechnica.com/ai/2024/10/the-quest-to-use-ai-to-build-better-ai/
https://www.teamten.com/lawrence/writings/coding-machines/
https://arxiv.org/pdf/2401.10020
https://arxiv.org/pdf/2406.10162