展會(huì)信息港展會(huì)大全

北大王立威:理論視角看大模型,為什么AI既聰明又愚蠢
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-07 07:19:53   瀏覽:122次  

導(dǎo)讀:人工智能的卓越發(fā)展源于對(duì)技術(shù)與產(chǎn)業(yè)本質(zhì)的洞察機(jī)器之心全新視頻欄目「智者訪談」邀請(qǐng)領(lǐng)域?qū)<,洞?AI 核心技術(shù)與行業(yè)趨勢(shì)為從業(yè)者量身打造深化行業(yè)認(rèn)知,激發(fā)創(chuàng)新思考與智者同行,共創(chuàng) AI 未來以英偉達(dá)為代表,近期美股科技巨頭市值蒸發(fā)超過萬億,引發(fā)了市場(chǎng)對(duì) AI 泡沫破裂的擔(dān)憂,特別引發(fā)焦慮的是大模型領(lǐng)域,甚至有人將其與互聯(lián)網(wǎng)泡沫相提并論。我們驚嘆于當(dāng)前 AI 的成果 ......

北大王立威:理論視角看大模型,為什么AI既聰明又愚蠢

人工智能的卓越發(fā)展

源于對(duì)技術(shù)與產(chǎn)業(yè)本質(zhì)的洞察

機(jī)器之心全新視頻欄目「智者訪談」

邀請(qǐng)領(lǐng)域?qū)<,洞?AI 核心技術(shù)與行業(yè)趨勢(shì)

為從業(yè)者量身打造

深化行業(yè)認(rèn)知,激發(fā)創(chuàng)新思考

與智者同行,共創(chuàng) AI 未來

北大王立威:理論視角看大模型,為什么AI既聰明又愚蠢

以英偉達(dá)為代表,近期美股科技巨頭市值蒸發(fā)超過萬億,引發(fā)了市場(chǎng)對(duì) AI 泡沫破裂的擔(dān)憂,特別引發(fā)焦慮的是大模型領(lǐng)域,甚至有人將其與互聯(lián)網(wǎng)泡沫相提并論。

我們驚嘆于當(dāng)前 AI 的成果,但若深究其過程則往往感到失落。在生成式 AI 盛行的當(dāng)下,這種矛盾心理尤為突出。

大語言模型(LLM)的通用能力是一個(gè)意外的收獲,為了改進(jìn)機(jī)器翻譯序列處理而提出的 Transformer,性能是如此強(qiáng)大,已經(jīng)成為語音、文本、圖像領(lǐng)域事實(shí)上的基礎(chǔ)架構(gòu),并且展現(xiàn)出一統(tǒng)模態(tài)的巨大潛力。從 GPT-3 到 GPT-3.5(即 ChatGPT),模型能力似乎有了質(zhì)的飛躍,但二者在訓(xùn)練方式上并沒有本質(zhì)區(qū)別,這是否意味著更多的數(shù)據(jù)、更大的模型是通往智能的正確路徑,更好地「預(yù)測(cè)下一個(gè)詞」最終能讓我們創(chuàng)造出會(huì)思考的機(jī)器?

今天,大模型已經(jīng)開始走向產(chǎn)品階段,人工智能正滲透到千行百業(yè),我們?cè)谙硎苤悄芑鶐淼谋憷耐瑫r(shí),也面臨一系列現(xiàn)實(shí)問題,F(xiàn)有的理論還難以解釋深度學(xué)習(xí)的許多重要問題,導(dǎo)致實(shí)踐無法系統(tǒng)且高效的進(jìn)行。大模型的出現(xiàn),給機(jī)器學(xué)習(xí)理論提出了全新的課題。在技術(shù)創(chuàng)新飛速發(fā)展、知識(shí)創(chuàng)造相對(duì)滯后的當(dāng)下,理論研究該如何應(yīng)對(duì)挑戰(zhàn)、抓住機(jī)遇?

本期機(jī)器之心《智者訪談》邀請(qǐng)到北京大學(xué)智能學(xué)院教授王立威,從機(jī)器學(xué)習(xí)理論視角看大模型的能力邊界,探討理論對(duì) AI 未來發(fā)展的影響。

王立威教授指出,很多人都將今天的人工智能與工業(yè)革命相類比,但我們是否想過,蒸汽機(jī)雖是傳世的發(fā)明,卻鮮有與其設(shè)計(jì)相關(guān)的理論流傳下來。如果僅僅只停留在解釋具體現(xiàn)象的層面,如今的機(jī)器學(xué)習(xí)理論研究是否也會(huì)面臨同樣的命運(yùn)?

當(dāng) AI 技術(shù)實(shí)踐不斷突破而理論認(rèn)知未能同步提升時(shí),技術(shù)創(chuàng)新的風(fēng)險(xiǎn)也將被放大,甚至阻礙其真正價(jià)值的實(shí)現(xiàn)。

王立威教授鼓勵(lì)青年學(xué)者挑戰(zhàn)現(xiàn)有框架,探索未知領(lǐng)域,大模型不是人工智能的全部,機(jī)器學(xué)習(xí)也不止一條路徑,只有看得更深、更加本質(zhì),才能發(fā)現(xiàn)足以傳世的「AI 領(lǐng)域的能量守恒定律」,進(jìn)而指導(dǎo)未來的研究和實(shí)踐。

他說,探索需要勇氣,承擔(dān)一定風(fēng)險(xiǎn),很多事情都無法預(yù)測(cè),但這也正是探索的樂趣。

北大王立威:理論視角看大模型,為什么AI既聰明又愚蠢

視頻鏈接:https://mp.weixin.qq.com/s/z6hPX6P4JzcyQucDqm7mag

時(shí)間戳

01:05 為什么如今的 AI 既聰明又愚蠢

06:25 用 ML 解決數(shù)學(xué)和科學(xué)問題的潛力

14:55 理論視角看思維鏈(CoT)

26:22 大模型并不存在所謂的「涌現(xiàn)」

34:35 幻覺是 LLM 的固有特性

39:07 The Bitter Lesson & Scaling Law

44:28 關(guān)于可解釋性

50:25 重新定義泛化

54:15 大模型時(shí)代的理論研究

訪談文字整理

機(jī)器之心:王立威教授好,非常高興您做客機(jī)器之心的《智者訪談》。我們知道您深耕機(jī)器學(xué)習(xí)領(lǐng)域多年,尤其關(guān)注基礎(chǔ)理論方面的研究。在如今這個(gè)技術(shù)飛速發(fā)展、應(yīng)用日新月異的時(shí)代,對(duì)基礎(chǔ)理論的洞察尤其重要,我們希望今天能與您探討機(jī)器學(xué)習(xí)理論相關(guān)的內(nèi)容,以及理論對(duì)于未來 AI 領(lǐng)域發(fā)展的影響。

王立威:很高興參加機(jī)器之心的活動(dòng),分享一些我個(gè)人的看法。

為什么如今的 AI 既聰明又愚蠢?

機(jī)器之心:都說現(xiàn)在的 AI 聰明得驚人又蠢得出奇。我們見到了有 Google DeepMind 研發(fā)的 AlphaGeometry 系統(tǒng),能夠解奧賽級(jí)別的幾何證明題,并且獲得了 IMO 銀牌。同時(shí)前段時(shí)間熱議的,很多大模型連 9.11 和 9.9 在數(shù)值上的大小都分不清,為什么會(huì)出現(xiàn)這種情況,您能從原理上給我們解釋一下嗎?

王立威:首先我想跟大家澄清一點(diǎn),今天的 AI 系統(tǒng),我們應(yīng)該具體地去看,而不是籠統(tǒng)地去看。比如你剛才舉的兩個(gè)例子,一個(gè)是 Google DeepMind 研發(fā)的以 AlphaGeometry 以及后來的 AlphaProof 為代表的,這是一類系統(tǒng),還有另一類是以 OpenAI 的 ChatGPT 這種語言大模型為代表的系統(tǒng)。

這兩類系統(tǒng)雖然都是 AI 系統(tǒng),但它們是截然不同的,無論從自身的結(jié)構(gòu)、原理到進(jìn)行機(jī)器學(xué)習(xí)的方式,再到處理的問題,各自的擅長與弱點(diǎn),都非常不一樣。大家可能用過 OpenAI 的 ChatGPT 或者其他的一些語言大模型,這類 AI 系統(tǒng)主要處理的是語言對(duì)話,而且是非常寬泛、普適的場(chǎng)景,其優(yōu)點(diǎn)是可以處理大量的問題,但缺點(diǎn)和不足是邏輯性稍有欠缺,對(duì)于需要嚴(yán)密邏輯推理的問題,比如說數(shù)學(xué)或一些科學(xué)問題,這不是它的所長,也跟這類系統(tǒng)的原理密切相關(guān)。

剛才講的另一類系統(tǒng),比如說 AlphaGeometry,以及后來的 AlphaProof,用的是深度強(qiáng)化學(xué)習(xí)這種方法,而深度強(qiáng)化學(xué)習(xí)不是今天語言大模型的主要技術(shù)方案。它們還有一大特點(diǎn),也是區(qū)別于語言大模型的,是專注于解決特定類型的封閉世界問題(closed-world problem)。

選擇封閉世界問題,并利用深度強(qiáng)化學(xué)習(xí)去解決,這套思路與 DeepMind 在幾年前用 AlphaGo下圍棋的方法一脈相承。今天我們已經(jīng)開發(fā)出很多的這種解決特定問題的 AI 系統(tǒng),它們各自擁有優(yōu)勢(shì)和技術(shù)路線,在功能和應(yīng)用上也有所區(qū)別。

機(jī)器之心:后來 DeepMind 又推出了升級(jí)版的 AlphaGeometry 2,說是基于 Google 的 Gemini 大模型進(jìn)行了訓(xùn)練,并且性能得到了提升。在您看來,這個(gè)具體提升在哪里呢?

王立威:我個(gè)人認(rèn)為大模型在里邊應(yīng)該沒有起到什么太重要或者本質(zhì)的幫助,可能更多是吸引大家關(guān)注,因?yàn)楫吘勾竽P同F(xiàn)在是一個(gè)熱點(diǎn)。

AlphaGeometry 其實(shí)是基于我們中國已故的著名數(shù)學(xué)家吳文俊先生所做的「數(shù)學(xué)機(jī)械化」方法,去做平面幾何的定理自動(dòng)證明。有很多研究者都在從事這方面的工作,比如中國科學(xué)院數(shù)學(xué)研究所的高小山老師等等,他們已經(jīng)深耕了很多年。

AlphaGeometry 是建立在這樣一系列工作的基礎(chǔ)上,又做了一定的改進(jìn),你可以把這些改進(jìn)概括為「神經(jīng)符號(hào)系統(tǒng)」這樣的名詞,但其本質(zhì)還是使用 DeepMind 所擅長的那套較為標(biāo)準(zhǔn)和成熟的深度強(qiáng)化學(xué)習(xí)方法。AlphaGeometry 的論文已經(jīng)正式發(fā)表,它相較于吳方法已經(jīng)做到一個(gè)什么水平,例如在 f 值、m 值之上加了幾個(gè)新的成分,每一個(gè)成分加進(jìn)去可以提升多少,都有非常清楚的描述。

所以我覺得 AlphaGeometry 好,首先在于選擇了平面幾何這個(gè)很對(duì)的研究問題。但是,平面幾何早在吳文俊先生那個(gè)時(shí)代我們就已經(jīng)知道,這條路是可以走,并且可以走得很好的,今天 AlphaGeometry 只是把它做到更好,接近完美的一個(gè)水平。

使用機(jī)器學(xué)習(xí)解決數(shù)學(xué)和科學(xué)問題的潛力

機(jī)器之心:您近年來也關(guān)注使用機(jī)器學(xué)習(xí)方法解決數(shù)學(xué)和科學(xué)問題,顯然看中了其潛力,您能再展開談一談嗎?

王立威:用機(jī)器學(xué)習(xí)、人工智能的方法解決數(shù)學(xué)或者科學(xué)問題,在我看來確實(shí)非常具有潛力。當(dāng)然我們也要辯證地看這個(gè)問題,不是說有了機(jī)器學(xué)習(xí)和人工智能就能包打天下,就能替代我們的科學(xué)家、數(shù)學(xué)家去解決自然科學(xué)、數(shù)學(xué)領(lǐng)域的問題。

應(yīng)該說今天的機(jī)器學(xué)習(xí)、人工智能在這方面是一個(gè)有力的工具,但在可預(yù)見的未來還無法替代人類。我個(gè)人認(rèn)為未來發(fā)展路徑可能是:人類科學(xué)家仍然要做頂層設(shè)計(jì),但是其中的某些環(huán)節(jié)或部分可以用機(jī)器學(xué)習(xí)和人工智能方法更高效地完成,因?yàn)楹芏鄷r(shí)候需要處理大量的數(shù)據(jù),尤其是一些不是很規(guī)律的、很復(fù)雜的表示。

我經(jīng)常和我組里面的學(xué)生講,我用一個(gè)詞叫 regular,就是有規(guī)律性,人類比較擅長發(fā)現(xiàn)或處理一些特別 regular 的對(duì)象。今天的機(jī)器學(xué)習(xí)可能在處理一些沒那么 regular 的對(duì)象,甚至發(fā)現(xiàn)一些沒那么 regular 的規(guī)律方面比人更強(qiáng)一點(diǎn),但如果是非常偉大的發(fā)現(xiàn),我覺得可能單純靠今天的機(jī)器學(xué)習(xí)困難是很大的,人和機(jī)器學(xué)習(xí)必須要更有機(jī)地結(jié)合起來才行。

機(jī)器之心:說到用機(jī)器學(xué)習(xí)解決數(shù)學(xué)問題,我們很容易想到陶哲軒教授,他認(rèn)為 AI 一定能為我們帶來巨大的突破。對(duì)此您是怎么看的呢?

王立威:今天用機(jī)器學(xué)習(xí)和人工智能去解決數(shù)學(xué)問題,實(shí)際上有幾個(gè)不一樣的技術(shù)路線,應(yīng)該說是非常不一樣的技術(shù)路線,一種就是剛才我們談到的 Google DeepMind,他們用以深度強(qiáng)化學(xué)習(xí)為代表的方法去解決一些非常特定的領(lǐng)域里面的問題。

以陶哲軒為代表,還有很多數(shù)學(xué)家,包括另一位著名的菲爾茲獎(jiǎng)得主舒爾茨,他們其實(shí)在做一個(gè)叫「數(shù)學(xué)形式化」的工作,形式化本身并不涉及 AI,沒有 machine learning,它其實(shí)是想把今天人類在寫數(shù)學(xué)論文時(shí)所用的數(shù)學(xué)語言,翻譯成一種非常標(biāo)準(zhǔn)的,每一步都按部就班的,甚至類似于代碼的這樣一種語言,其好處是由于人在寫數(shù)學(xué)證明的時(shí)候其實(shí)是容易犯錯(cuò)的,甚至中間有一些 gap 數(shù)學(xué)家自己都意識(shí)不到。但是如果翻譯成形式化的語言,每一步可以自動(dòng)地由計(jì)算機(jī)去驗(yàn)證,這樣就能保證數(shù)學(xué)證明里不會(huì)存在潛在的漏洞。

在這個(gè)過程當(dāng)中,既然計(jì)算機(jī)可以直接去讀,直接去驗(yàn)證,甚至直接去進(jìn)行一些邏輯上的推演,那么這個(gè)時(shí)候 AI、machine learning 就有可能進(jìn)入進(jìn)來。實(shí)際上早在幾十年前就有一個(gè)領(lǐng)域叫做定理的自動(dòng)證明,目標(biāo)就是希望用計(jì)算機(jī)來自動(dòng)完成定理的證明。

今天由于有了機(jī)器學(xué)習(xí)和人工智能,所以大家希望從這條路去做一些事情,在形式化后,是不是有可能通過機(jī)器學(xué)習(xí)的方式,對(duì)于一個(gè)想要證明的定理,自動(dòng)地去發(fā)現(xiàn)它的證明過程,更準(zhǔn)確地說,是在證明的過程中,每一次我走到一步,下一步應(yīng)該去做什么、去證明什么,這樣一步一步從命題到最終結(jié)論,全部自動(dòng)完成。

這是陶哲軒等人在探索的技術(shù)路徑。就我個(gè)人而言,我傾向于認(rèn)為形式化加定理自動(dòng)證明這條路,需要很長的時(shí)間去走,而且有很大的難度,不僅是技術(shù)上的難度,還有很多條件上的難度,比如說數(shù)據(jù)等問題。

今天的語言大模型,無論是 ChatGPT 還是其他模型,實(shí)際上已經(jīng)把互聯(lián)網(wǎng)上幾乎所有的數(shù)據(jù)全部用到了。然而,在數(shù)學(xué)或者一些自然科學(xué)領(lǐng)域,我們需要的并非海量的簡單文本,而是高質(zhì)量的專業(yè)數(shù)據(jù),比如人類數(shù)學(xué)家撰寫的數(shù)學(xué)論文和與之對(duì)應(yīng)的形式化語言表達(dá)這樣的配對(duì)。就好比機(jī)器翻譯,今天大模型在自然語言翻譯上取得顯著成果,其根源在于大量的雙語語料庫,比如中文和英文的配對(duì)。

然而,數(shù)學(xué)是一個(gè)高度專門化且深?yuàn)W的領(lǐng)域,盡管我們有大量的數(shù)學(xué)論文,但與之對(duì)應(yīng)的形式化語言表達(dá)卻非常匱乏,因?yàn)閷⒆匀徽Z言的數(shù)學(xué)論文轉(zhuǎn)換為形式化語言,需要耗費(fèi)大量的人工成本,并且必須由數(shù)學(xué)領(lǐng)域的專家來完成。我知道有很多學(xué)者正致力于這方面的研究,他們嘗試通過人工、半自動(dòng)或自動(dòng)化的方法,將人類的數(shù)學(xué)語言轉(zhuǎn)換為形式化的數(shù)學(xué)語言,但這需要一個(gè)長期的積累過程。

機(jī)器之心:報(bào)道稱 AlphaGeometry 使用合成數(shù)據(jù),從頭開始訓(xùn)練,您如何看待合成數(shù)據(jù)的前景?

王立威:我自己也曾嘗試?yán)煤铣蓴?shù)據(jù)來提升標(biāo)準(zhǔn)自然數(shù)據(jù)的表現(xiàn)。然而,這一方法的關(guān)鍵在于,即使生成了新的數(shù)據(jù),仍然需要人工介入,運(yùn)用專業(yè)知識(shí)進(jìn)行校對(duì)和糾正,這樣才能真正輸入新的信息。熟悉信息論的聽眾應(yīng)該了解,單純的合成數(shù)據(jù)并不能提供任何新的信息量,除非有新的 input,那么這種新的 input 是什么呢?就可能是專家對(duì)合成數(shù)據(jù)進(jìn)行的檢驗(yàn)和校正。因此,我認(rèn)為利用合成數(shù)據(jù)是一個(gè)可行的方向,但單純依靠合成數(shù)據(jù)是難以取得突破的。

機(jī)器之心:這跟 AlphaGo 自我對(duì)弈并從中學(xué)習(xí)的區(qū)別是什么呢?

王立威:AlphaGo 解決的是圍棋問題,自我對(duì)弈之所以能夠帶來新的信息,是因?yàn)槊恳槐P棋結(jié)束后,勝負(fù)結(jié)果都可以根據(jù)規(guī)則明確判斷,而每一次的勝負(fù)結(jié)果都提供了新的信息。因此,如果我們所研究的問題也能夠產(chǎn)生類似的反饋機(jī)制,那么利用合成數(shù)據(jù)并結(jié)合這種反饋,就有可能取得成功。

理論視角看思維鏈:

Transformer 是一種電路

機(jī)器之心:回到大語言模型,您團(tuán)隊(duì)在 NeurIPS 2023 上面有一篇 oral 論文,首次從理論視角研究了思維鏈(Chain of Thought,CoT)提示的作用。您能談一談這篇論文的結(jié)論和啟示嗎?

王立威:好的,我從幾個(gè)方面來談。首先,無論是解決數(shù)學(xué)任務(wù)還是進(jìn)行邏輯推理,大語言模型最終都需要完成特定任務(wù)。我們可以從幾個(gè)層面來理解模型是如何完成任務(wù)的。

第一個(gè)層面是模型本身的結(jié)構(gòu),比如我們剛才談到的 Transformer。除了結(jié)構(gòu)之外,如何使用結(jié)構(gòu)也很重要,思維鏈本質(zhì)上就是一種使用 Transformer 這種結(jié)構(gòu)的方式。無論是模型結(jié)構(gòu)本身,還是使用結(jié)構(gòu)的方式,都與模型的表達(dá)能力密切相關(guān)。大家可以想象,如果 Transformer 或者說大模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)過于簡單,那它的表達(dá)能力必然很弱,很多復(fù)雜邏輯或運(yùn)算就無法表達(dá)。所以,我們這篇論文就是從表達(dá)能力的角度出發(fā),研究思維鏈與 Transformer 結(jié)合后的效果。

我們的主要結(jié)論是,如果只用 Transformer 而不使用思維鏈,那么 Transformer 這種結(jié)構(gòu)的表達(dá)能力實(shí)際與電路非常接近。電路大家都很熟悉,比如邏輯電路、數(shù)字電路,它們由一些邏輯門組成,例如與門、或門、非門等,邏輯門之間通過線路連接。

我們可以將神經(jīng)網(wǎng)絡(luò)與邏輯電路進(jìn)行類比:神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元對(duì)應(yīng)電路中的邏輯門,神經(jīng)元之間的連接對(duì)應(yīng)電路中的連線。兩者唯一的區(qū)別在于,邏輯門的計(jì)算操作和神經(jīng)元的計(jì)算操作有所不同。但我們的研究發(fā)現(xiàn),這種區(qū)別并不本質(zhì),它們之間可以相互轉(zhuǎn)化,因此可以近似地認(rèn)為兩者是差不多的。

所以,如果只是一個(gè)單純的深度神經(jīng)網(wǎng)絡(luò),比如 Transformer,我們就可以將其視為一種電路,并從電路的角度來分析它的計(jì)算能力,也就是它處理數(shù)學(xué)問題的能力。早在上世紀(jì) 70 年代,人們就已經(jīng)對(duì)各種電路的計(jì)算能力進(jìn)行了深入的研究。因此,我們可以很清楚地說,如果僅僅使用 Transformer 神經(jīng)網(wǎng)絡(luò)來處理數(shù)學(xué)問題,至少從表達(dá)能力的角度來看,它的能力是有限的。

但是,我們的論文進(jìn)一步分析了,如果引入思維鏈,情況就會(huì)發(fā)生變化。思維鏈相當(dāng)于讓神經(jīng)網(wǎng)絡(luò)進(jìn)行一步一步的推演,每一步的輸出都會(huì)作為下一步的輸入,形成一種循環(huán)迭代。這種循環(huán)迭代相當(dāng)于反復(fù)利用了神經(jīng)網(wǎng)絡(luò),在某種意義上可以認(rèn)為是擴(kuò)大了神經(jīng)網(wǎng)絡(luò)的規(guī)模,從而提升了它的表達(dá)能力和計(jì)算能力。因此,使用了思維鏈的 Transformer 神經(jīng)網(wǎng)絡(luò)在處理數(shù)學(xué)問題時(shí),就能夠解決更復(fù)雜、更困難的問題。

但是,要構(gòu)建一個(gè)真正能夠解決很多數(shù)學(xué)問題的大模型,僅僅依靠表達(dá)能力是不夠的,還需要考慮模型的學(xué)習(xí)能力,包括如何從數(shù)據(jù)中學(xué)習(xí),還有泛化能力,也即模型能否能夠把從已有數(shù)據(jù)中學(xué)習(xí)到的知識(shí)應(yīng)用到新的、沒有見過的數(shù)據(jù)上。我們這篇論文還沒有涉及這些方面的內(nèi)容,但這對(duì)于大模型能否成功解決數(shù)學(xué)或邏輯推理問題至關(guān)重要,也是未來研究的重要方向。

機(jī)器之心:Transformer 本身表達(dá)能力有限,但堆疊到萬億乃至十萬億、百萬億等更大的規(guī)模后,模型的表達(dá)能力是否足以解決數(shù)學(xué)或者科學(xué)問題呢?

王立威:雖然現(xiàn)在的大模型已經(jīng)達(dá)到萬億參數(shù)級(jí)別,但很多人認(rèn)為,與人腦相比仍然相差甚遠(yuǎn),可能還有幾個(gè)數(shù)量級(jí)的差距。不過,如果從理論角度來分析,我們不能簡單地用參數(shù)量來衡量模型的能力,還有一個(gè)重要的指標(biāo)是模型的增長速度,看模型的復(fù)雜度是呈多項(xiàng)式級(jí)別增長,還是指數(shù)級(jí)別增長。

所謂多項(xiàng)式復(fù)雜度,指的是隨著輸入規(guī)模的增大,模型規(guī)模的增長速度可以用一個(gè)關(guān)于輸入規(guī)模的多項(xiàng)式來描述。比如,如果輸入規(guī)模為 x,那么模型規(guī)模的增長速度可能是 x 或 x 等等。而指數(shù)復(fù)雜度指的是模型規(guī)模的增長速度隨著輸入規(guī)模的增大呈指數(shù)級(jí)增長,比如 2 的 x 次方。

一般從理論角度認(rèn)為,如果模型復(fù)雜度是多項(xiàng)式級(jí)別的增長,那么模型的規(guī)模是可以控制的,因?yàn)槎囗?xiàng)式級(jí)別的增長速度遠(yuǎn)低于指數(shù)增長。但是,如果模型復(fù)雜度是指數(shù)級(jí)別的增長,那么模型的規(guī)模將會(huì)非常龐大,實(shí)現(xiàn)起來非常困難。因此,在討論模型規(guī)模的時(shí)候,通常會(huì)限定在多項(xiàng)式復(fù)雜度增長的范圍內(nèi)。

我們之前的分析表明,如果僅僅使用一個(gè)規(guī)模按照多項(xiàng)式級(jí)別增長的 Transformer 模型,那么很多數(shù)學(xué)問題是無法解決的。但是,如果允許模型規(guī)模以指數(shù)級(jí)別增長,理論上模型可以處理任何問題。但你可以想象一下,在指數(shù)級(jí)別增長的情況下,如果模型的輸入是一本數(shù)學(xué)教材,那么模型的規(guī)模就不是萬億參數(shù)級(jí)別,可能要在后面加上很多個(gè)零。

我們這篇關(guān)于思維鏈的論文想要說明的是,即使模型規(guī)模的增長速度是多項(xiàng)式級(jí)別的,也就是實(shí)際中大家認(rèn)為可接受、可實(shí)現(xiàn)的,用上思維鏈以后,模型也可以表達(dá)和處理那些復(fù)雜的數(shù)學(xué)問題。

機(jī)器之心:這對(duì)于我們有什么啟示?

王立威:我認(rèn)為主要的啟示是,我們需要不斷探索更高效、更有效的模型結(jié)構(gòu)和方法。思維鏈?zhǔn)且环N方式,但未必是最優(yōu)的一種方式,甚至現(xiàn)有的 Transformer 架構(gòu)加上思維鏈也未必是最佳方案。

Transformer 只是眾多優(yōu)秀模型結(jié)構(gòu)中的一種,它不是唯一的,可能還有大量的其他結(jié)構(gòu),跟 Transformer 一樣好,甚至更好也是有可能的。只不過今天大家都在進(jìn)行超大規(guī)模的實(shí)驗(yàn),大模型、大數(shù)據(jù),訓(xùn)練一次型的代價(jià)太大了,我們沒有能力做大量的實(shí)驗(yàn),但是我相信存在很多不同的模型結(jié)構(gòu)都有很好的性能。

目前的大模型普遍采用 token 進(jìn)行表示。但如果要處理邏輯性強(qiáng)、嚴(yán)謹(jǐn)性高的問題,例如數(shù)學(xué)問題,僅僅依靠現(xiàn)有的表示方式是否足夠?這一點(diǎn)尚不明確。我不確定是否有學(xué)者對(duì)此進(jìn)行過深入研究。畢竟日常對(duì)話中的邏輯關(guān)系和復(fù)雜度相對(duì)有限,而在學(xué)術(shù)領(lǐng)域,尤其是數(shù)學(xué)領(lǐng)域,一個(gè)概念可能是基于其他非常多概念的基礎(chǔ)之上,一個(gè)概念跟其他概念之間有著非常復(fù)雜而深刻的聯(lián)系,如何有效地表示這些概念以及它們之間的關(guān)系,是值得深入探討的。用今天的這種狹義的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能否很好地表示這些復(fù)雜的概念和關(guān)系,我自己是覺得不能完全確定。

從 2012 年 Hinton 等人的突破性工作算起,深度學(xué)習(xí)的發(fā)展僅僅經(jīng)歷了 12 年的時(shí)間。人工智能領(lǐng)域在這 12 年間的飛速發(fā)展,在其他領(lǐng)域中實(shí)屬罕見。但畢竟時(shí)間尚短,大家探索的內(nèi)容仍然有限。

我們今天已經(jīng)有大模型,能處理非常多的日常問題,這確實(shí)很了不起了?墒俏覀儽仨毘姓J(rèn),科學(xué)問題,包括一些數(shù)學(xué)問題,在難度和深度上肯定遠(yuǎn)超日常的問題,復(fù)雜程度也要高很多。我們不能想當(dāng)然地以為,現(xiàn)有的模型結(jié)構(gòu)和模式在自然語言對(duì)話上取得了成功,沿著這條路線走下去就能解決科學(xué)問題,這也不一定。

機(jī)器之心:總體看來您很謹(jǐn)慎,但感覺挺悲觀的。

王立威:哈哈,不是悲觀,我只是覺得需要時(shí)間。其實(shí)我覺得這就是探索,探索的樂趣就在于你事先沒有辦法確定,很多是偶然的,這也是做研究的樂趣。

大模型并不存在所謂的「涌現(xiàn)」

機(jī)器之心:ChatGPT 之所以驚艷世人,就在于什么呢?當(dāng)時(shí)有一個(gè)詞叫「涌現(xiàn)」,是說當(dāng)模型大到一定規(guī)模之后,就能夠完成很多種不同的任務(wù),這是在小模型上不曾觀察到的。您是怎么看待大模型的這種涌現(xiàn)能力或現(xiàn)象的?

王立威:首先,目前這些千億甚至萬億參數(shù)級(jí)別的大模型,與一億參數(shù)以下的小模型相比,在能力上確實(shí)存在著本質(zhì)區(qū)別。但談到「涌現(xiàn)」,我們需要明確其定義。物理學(xué)中的涌現(xiàn)與相變的概念相關(guān),相變通常指存在一個(gè)閾值,低于閾值時(shí)現(xiàn)象完全不存在,超過閾值后現(xiàn)象就會(huì)突然出現(xiàn),例如物理學(xué)中的超導(dǎo)現(xiàn)象。

我傾向于認(rèn)為,在今天我們討論的大模型中,并不存在相變意義上的涌現(xiàn),也就是說,不存在一個(gè)明確的閾值,例如 500 億參數(shù)的模型沒有某種能力,而 501 億參數(shù)的模型就突然具備了這種能力。現(xiàn)在看模型能力的提升應(yīng)該是一個(gè)循序漸進(jìn)的過程。只不過,現(xiàn)在的模型規(guī)模比過去大了幾個(gè)數(shù)量級(jí),所以與之前的小模型相比,差異才顯得如此巨大。

機(jī)器之心:我一直很好奇,現(xiàn)在可以先訓(xùn)練一個(gè)大模型,然后通過一些方法將其壓縮成小模型,這個(gè)小模型能夠?qū)崿F(xiàn)與之前大模型相似的效果。那么,這個(gè)壓縮后的小模型與一開始的小模型之間有什么區(qū)別呢?因?yàn)閴嚎s后的小模型顯然具備了之前小模型不具備的能力,您能解釋一下其中的原理嗎?

王立威:這是一個(gè)很好的問題。我先問你一個(gè)問題,你會(huì)騎自行車嗎?

你有沒有意識(shí)到,當(dāng)一個(gè)人剛開始學(xué)自行車的時(shí)候,騎不太好的時(shí)候,你感覺全身都投入到騎自行車這件事情上,您感覺你的大腦已經(jīng)完全被騎自行車這件事給占據(jù)了。但是,當(dāng)你學(xué)會(huì)騎自行車之后,你發(fā)現(xiàn)你的大腦可能只需要分出很小一部分用來騎自行車就行了,你可以一邊騎車一邊和別人聊天,還可以看風(fēng)景。

實(shí)際上,機(jī)器學(xué)習(xí)在你剛才提到的這個(gè)問題上與人類學(xué)習(xí)非常相似。從學(xué)術(shù)角度來講,當(dāng)我們需要從零開始學(xué)習(xí)時(shí),可能需要一個(gè)大模型,但是當(dāng)我們學(xué)會(huì)了之后,就可以把大模型蒸餾成一個(gè)小模型。

更具體地說,為什么在學(xué)的時(shí)候必須用大模型呢?

在理論上已經(jīng)有人證明,如果想從零開始學(xué)習(xí),使用小模型很可能找不到正確的路徑,而使用大模型則更容易找到從初始狀態(tài)到目標(biāo)狀態(tài)的正確路徑。找到正確路徑后,我們會(huì)發(fā)現(xiàn)其實(shí)并不需要這么大的模型,再把真正有用的部分抽取出來即可。但是,如果直接使用小模型,就很難找到那條正確的路徑,學(xué)習(xí)難度會(huì)大大增加。

關(guān)于幻覺:如今的大模型基于統(tǒng)計(jì)而非邏輯

永遠(yuǎn)無法保證 100% 正確

機(jī)器之心:我們的終極目標(biāo)是希望 AI 能夠獨(dú)立完成數(shù)學(xué)證明,并且像偉大的科學(xué)家比如愛因斯坦那樣,發(fā)現(xiàn)新的科學(xué)理論。為了實(shí)現(xiàn)這個(gè)目標(biāo),還需要克服哪些主要困難?

王立威:這個(gè)問題非常困難。首先,我們來看目前取得了相當(dāng)成功的語言大模型。它們成功的關(guān)鍵在于,在訓(xùn)練過程中接觸了海量的問題和解決方案。以 GPT 為代表的這類方法,將許多不同類型的任務(wù)都轉(zhuǎn)化為自然語言的形式進(jìn)行描述和學(xué)習(xí)。

如果我們希望大模型在數(shù)學(xué)或自然科學(xué)領(lǐng)域也能自主解決新的問題,那么它首先必須要見過數(shù)學(xué)和自然科學(xué)領(lǐng)域里面大量不同的問題,以及解決這些問題的方式方法。然而,目前這方面的數(shù)據(jù)非常匱乏,F(xiàn)有的數(shù)據(jù)大多是一些習(xí)題級(jí)別的內(nèi)容,例如中小學(xué)習(xí)題、大學(xué)本科習(xí)題,甚至奧賽習(xí)題,但科研層面的數(shù)據(jù)還非常之少,而且科研層面的數(shù)據(jù)往往是不完整的。我舉個(gè)例子,科學(xué)家在發(fā)表論文時(shí),通常只會(huì)呈現(xiàn)最終的發(fā)現(xiàn)和結(jié)論,而不會(huì)詳細(xì)描述整個(gè)思維過程。

越是那些最高水平的科研成果,越是精煉,越?jīng)]有去寫研究人員的思維過程。阿貝爾曾說,高斯就像一只狡猾的狐貍,把自己走過的腳印都抹掉了。實(shí)際上,很多科學(xué)家都會(huì)做類似的事情。他們?cè)谘芯窟^程中使用的草稿紙是以千計(jì)的,但最終發(fā)表的論文可能只有幾十頁。除非你能把那些草稿紙全部找到,當(dāng)成訓(xùn)練數(shù)據(jù)。

機(jī)器之心:不過現(xiàn)在科研已經(jīng)基本數(shù)字化了,接下來還有沒有這種可能呢?

王立威:我們剛才一直討論的是從數(shù)據(jù)中學(xué)習(xí),但這只是機(jī)器學(xué)習(xí)和人工智能解決科學(xué)問題方法中的一部分。我個(gè)人傾向于認(rèn)為,只通過從數(shù)據(jù)中學(xué)習(xí)是不能完全解決用機(jī)器學(xué)習(xí)和 AI 處理數(shù)學(xué)和自然科學(xué)問題的。為什么呢?

因?yàn)檎嬲目茖W(xué)研究不僅僅是從數(shù)據(jù)中學(xué)習(xí),更重要的是創(chuàng)造和驗(yàn)證?茖W(xué)家在進(jìn)行研究時(shí),會(huì)產(chǎn)生許多想法和假設(shè)。這些想法的產(chǎn)生過程與現(xiàn)在大模型的 next-token prediction 模式類似,都是基于過去的經(jīng)驗(yàn)和觀察去生成新的內(nèi)容。

但是僅有這種生成是不夠的,即使是最偉大的科學(xué)家,產(chǎn)生的 100 個(gè) idea 中,可能有 98 個(gè)都是錯(cuò)誤的,必須要進(jìn)一步嚴(yán)格地去驗(yàn)證,發(fā)現(xiàn)錯(cuò)誤之后,還要想辦法如何去修正和改進(jìn),這才是科學(xué)研究的關(guān)鍵。

我覺得今天的大模型產(chǎn)生幻覺,跟人類產(chǎn)生想法的機(jī)制非常類似,只不過今天的大模型產(chǎn)生了想法,next-token prediction 之后就直接輸出了,就把 next-token prediction 的結(jié)果作為答案交給人了。如果未來大模型能在驗(yàn)證、判斷和糾錯(cuò)方面做得更好,相信效果會(huì)比現(xiàn)在更好。

機(jī)器之心:所以說幻覺在您看來是大模型的一種固有特性?

王立威:對(duì),我認(rèn)為幻覺是大模型一種內(nèi)在的、應(yīng)該存在的一種性質(zhì)。

今天的大模型都是采用從數(shù)據(jù)中學(xué)習(xí)的方式,本質(zhì)上是一種基于統(tǒng)計(jì)的方法。既然是基于統(tǒng)計(jì)而不是基于邏輯,就永遠(yuǎn)無法保證 100% 正確。當(dāng)然我前面說過,幻覺的存在是有其意義的,而且我認(rèn)為不應(yīng)該把它完全抹殺。我們應(yīng)該允許模型生成一些并不一定 100% 正確的內(nèi)容,然后人類再從中進(jìn)行篩選。

只要大模型仍然采用從數(shù)據(jù)中學(xué)習(xí)、去做 next-token prediction,如果只做到這一步,那幻覺就是無法消除的。如果想要消除幻覺,就必須在后面增加檢驗(yàn)、糾錯(cuò)等機(jī)制。

機(jī)器之心:那么現(xiàn)有的機(jī)器學(xué)習(xí)方法,或者說更廣泛的人工智能方法,能夠進(jìn)行這樣的驗(yàn)證或糾錯(cuò)嗎?

王立威:這就回到了我們剛開始討論的內(nèi)容,現(xiàn)在的機(jī)器學(xué)習(xí)不止一條路徑。比如我們前面談到的 AlphaGeometry,它和語言大模型走的就是完全不同的路線。AlphaGeometry 在每個(gè)環(huán)節(jié)都需要進(jìn)行驗(yàn)證,確保自身的正確性,但它在內(nèi)容生成方面的能力可能不如語言大模型。

我想借此機(jī)會(huì)澄清一點(diǎn),在自然科學(xué)或數(shù)學(xué)研究領(lǐng)域,存在著各種各樣的問題,它們的類別也是不一樣的,不同類別的問題由于自身的特殊性,需要機(jī)器學(xué)習(xí)如何參與,或者說需要機(jī)器學(xué)習(xí)參與進(jìn)來用什么樣的技術(shù)路線可能是千差萬別。對(duì)于那些擁有海量數(shù)據(jù)的自然科學(xué)問題,例如在化學(xué)和一些生物學(xué)領(lǐng)域,已經(jīng)積累了極多的觀察數(shù)據(jù),這時(shí)我們就可以把數(shù)據(jù)交給模型去學(xué)習(xí),例如之前的 AlphaFold。但在某些領(lǐng)域,人類經(jīng)過幾百年的科學(xué)研究,已經(jīng)發(fā)現(xiàn)了一些重要的規(guī)律,這時(shí)我們就不能完全放棄這些規(guī)律,而應(yīng)該將知識(shí)與數(shù)據(jù)結(jié)合起來。所以,我想并不存在一種包打天下的辦法,機(jī)器學(xué)習(xí)也是如此。我們需要根據(jù)具體的問題和條件,設(shè)計(jì)相應(yīng)的解決方案。

機(jī)器之心:假如我是一名自然科學(xué)領(lǐng)域的研究人員,比如物理或化學(xué),但我對(duì)人工智能方法了解不多,我該如何選擇適合我的方法呢?

王立威:我的建議是要么從頭開始學(xué)習(xí),要么找一位機(jī)器學(xué)習(xí)專家進(jìn)行合作。在我的研究小組里,有一些本科學(xué)習(xí)自然科學(xué)的博士生,他們?cè)诩尤胛业膱F(tuán)隊(duì)后,繼續(xù)學(xué)習(xí)了人工智能相關(guān)的知識(shí)。同時(shí),我的組里面也有一些機(jī)器學(xué)習(xí)和 AI 背景的同學(xué),他們?cè)谧?AI for Science 研究時(shí),也必須學(xué)習(xí)相關(guān)的自然科學(xué)知識(shí)。如果只是把機(jī)器學(xué)習(xí)當(dāng)作一個(gè)封裝好的現(xiàn)成工具去使用,我認(rèn)為很難在 AI for Science 領(lǐng)域里做出比較重要的貢獻(xiàn)。

機(jī)器之心:所以說,一方面要對(duì)人工智能和機(jī)器學(xué)習(xí)方法有深刻的理解,另一方面也要對(duì)自己要解決的問題本身以及需要什么樣的方法有深刻的理解。

王立威:是的,我甚至認(rèn)為,未來我們應(yīng)該注重培養(yǎng)同時(shí)具備這兩種能力的青年人才,這是 AI for Science 未來發(fā)展的重要方向。

The Bitter Lesson & Scaling Law

機(jī)器之心:Richard Sutton 教授在 2017 年發(fā)表了《The Bitter Lesson》,文中討論了計(jì)算能力和數(shù)據(jù)的重要性,結(jié)合到現(xiàn)在以 OpenAI 為代表,他們推崇依靠數(shù)據(jù)和擴(kuò)大規(guī)模帶來性能的提升。您怎么理解 Sutton 教授的 bitter lesson?您又怎么看 Scaling Law 和算法創(chuàng)新之間的關(guān)系?

王立威:我之前看過 Sutton 寫的《The Bitter Lesson》,我是感同身受,因?yàn)槲易鰴C(jī)器學(xué)習(xí)也有 20 多年的時(shí)間了,在 2010 年之前,也就是深度學(xué)習(xí)和 ImageNet 崛起之前,當(dāng)時(shí)的機(jī)器學(xué)習(xí)研究主要在一個(gè)叫做 UCI Repository 的數(shù)據(jù)集上進(jìn)行,UCI Repository 包含幾百個(gè)數(shù)據(jù)集,但大部分?jǐn)?shù)據(jù)集都只有幾百個(gè)數(shù)據(jù),以現(xiàn)在的眼光來看,這是難以想象的小數(shù)據(jù)。

當(dāng)時(shí)大家提出一個(gè)新算法后,通常會(huì)在這些只有幾百個(gè)數(shù)據(jù)的小數(shù)據(jù)集上進(jìn)行驗(yàn)證。從今天的角度看,這種驗(yàn)證得到的結(jié)論是完全靠不住的。所以,無論是 Rich Sutton 的這篇文章,還是現(xiàn)在大家談?wù)摰?Scaling Law,都在告訴我們數(shù)據(jù)的規(guī)模和數(shù)據(jù)的多樣性至關(guān)重要。2010 年之前,有成千上萬篇論文都陷入了這種小數(shù)據(jù)驗(yàn)證的陷阱。我們應(yīng)該從中吸取教訓(xùn),認(rèn)識(shí)到使用大規(guī)模的數(shù)據(jù)進(jìn)行學(xué)習(xí)和驗(yàn)證的重要性。這是過去十幾年一個(gè)重大的認(rèn)識(shí)上的收獲。這一點(diǎn)我完全同意。

但這并不意味著我們只需要追求數(shù)據(jù)、算力和模型規(guī)模就夠了。Scaling Law 更準(zhǔn)確的含義是,能否通過設(shè)計(jì)模型和算法,在大規(guī)模的時(shí)候取得好的效果,而不是說只是無腦地去把規(guī)模增大,因?yàn)楫?dāng)數(shù)據(jù)、算力或模型規(guī)模達(dá)到一定程度后,不同的模型和方法之間在性能上仍然可能存在本質(zhì)上的差距,我們?nèi)匀恍枰プ龇浅6嗟脑O(shè)計(jì)。

大家可能知道,神經(jīng)網(wǎng)絡(luò),不是深度神經(jīng)網(wǎng)絡(luò),其實(shí)早在上世紀(jì)就已經(jīng)展開研究了,甚至在上世紀(jì)八九十年代的時(shí)候,還是一個(gè)對(duì)神經(jīng)網(wǎng)絡(luò)研究的高潮,只不過當(dāng)時(shí)研究的主要是淺層神經(jīng)網(wǎng)絡(luò),因?yàn)橐恍┧惴、算力和?shù)據(jù)方面的限制,沒有能夠做到深層的神經(jīng)網(wǎng)絡(luò)。

到了 2010 年以后,隨著技術(shù)的發(fā)展,大家逐漸去把網(wǎng)絡(luò)做深了,一個(gè)自然而然的問題就是:深層網(wǎng)絡(luò)和淺層網(wǎng)絡(luò)相比,究竟哪個(gè)更好?今天大家可能覺得答案顯而易見,肯定是深的網(wǎng)絡(luò)更好。但這種說法并不嚴(yán)謹(jǐn),更嚴(yán)謹(jǐn)?shù)膯柗☉?yīng)該是:如果兩個(gè)網(wǎng)絡(luò)的神經(jīng)元數(shù)量相同,也就是說網(wǎng)絡(luò)規(guī)模相同,但網(wǎng)絡(luò)結(jié)構(gòu)不同,例如一個(gè)是淺而寬的網(wǎng)絡(luò),另一個(gè)是窄而深的網(wǎng)絡(luò),那么哪個(gè)網(wǎng)絡(luò)的表達(dá)能力更強(qiáng)?

我們組大概從 2017 年提出這個(gè)問題并進(jìn)行研究,一直到去年,一組以色列的機(jī)器學(xué)習(xí)理論研究者終于回答了這個(gè)問題,他們從理論上、在數(shù)學(xué)上嚴(yán)格證明了:寬度合理、深度也合理的網(wǎng)絡(luò)表達(dá)能力是最強(qiáng)的,明顯強(qiáng)于淺而寬的網(wǎng)絡(luò)。所以,即使你把網(wǎng)絡(luò)規(guī)模增加到很大,也需要合理的結(jié)構(gòu)才能發(fā)揮最佳性能。

北大王立威:理論視角看大模型,為什么AI既聰明又愚蠢

以色列魏茨曼科學(xué)研究所的研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于 ReLU 神經(jīng)網(wǎng)絡(luò)的表達(dá)能力而言,深度比寬度更重要。地址:https://proceedings.mlr.press/v178/vardi22a/vardi22a.pdf

關(guān)于可解釋性

機(jī)器之心:隨著大模型越來越廣泛的應(yīng)用,如何解釋模型的行為也得到了越來越多的重視,包括您所從事的醫(yī)療相關(guān)的研究,為此我們需要在理論方面取得哪些突破?

王立威:我來分享一下我對(duì)可解釋性的一些看法。我覺得今天的模型實(shí)際上要從不同的層次來看,或者說模型和數(shù)據(jù)要放在一起,從不同的層次來分析。

這里面有一些非常底層的信號(hào),比如說人看到一只貓,能夠識(shí)別出它是一只貓,這就是一些比較底層的信號(hào),一些很底層的視覺信號(hào)。當(dāng)人去研究一些邏輯性問題的時(shí)候,思維方式又會(huì)是另外一個(gè)層次,和剛才的視覺識(shí)別是不一樣的。實(shí)際上,在不同的層次上,對(duì)于可解釋性的要求,甚至模型是否可解釋,都是不一樣的。在一些更偏底層的問題上,也許沒有辦法去解釋,因?yàn)樗鼈兙褪呛軓?fù)雜。但是對(duì)于一些更高層次的任務(wù),有一部分是可解釋的,是可以把邏輯寫出來的。所以我覺得要分層次去看待可解釋性這個(gè)問題。

另一方面,我覺得可解釋性也許不完全是一個(gè)客觀的問題,它可能跟人的心理因素也有關(guān)系。例如下圍棋,自從 AlphaGo 出現(xiàn)之后,用機(jī)器、用機(jī)器學(xué)習(xí)系統(tǒng)去下圍棋,已經(jīng)遠(yuǎn)遠(yuǎn)超過了今天人類頂尖棋手的水平。我自己也是個(gè)圍棋愛好者,雖然自從 AlphaGo 出現(xiàn)之后,我就不再下圍棋了。

其實(shí),對(duì)于 AlphaGo 以及其他一些現(xiàn)在最具代表性的機(jī)器學(xué)習(xí)圍棋系統(tǒng),人類的看法也是經(jīng)歷了一個(gè)過程,這里面也體現(xiàn)了可解釋性的問題。在 AlphaGo 出現(xiàn)的初期,人類頂尖棋手一直想理解機(jī)器為什么這樣下棋。機(jī)器走的一步棋,人類棋手之前可能根本就不會(huì)想到,他們非常想理解為什么機(jī)器要這么下,需要開發(fā)團(tuán)隊(duì)告訴他們,這個(gè)東西怎么解釋,這一步棋怎么解釋。開發(fā)團(tuán)隊(duì)后來想了一些辦法,比如告訴你,這步棋下在每一個(gè)不同位置,最終估計(jì)的這盤棋的勝率是多少,那這是不是一種解釋?

機(jī)器之心:不是我們想要的那種解釋。

王立威:那還有沒有別的解釋?最后發(fā)現(xiàn)人類沒辦法從機(jī)器那里得到想要的解釋。對(duì)于機(jī)器來講,它就是經(jīng)過了大量的訓(xùn)練之后,對(duì)棋局有了自己的理解和判斷。在當(dāng)前的局面下,它認(rèn)為應(yīng)該下在哪里,并通過大量的計(jì)算,最終得到了一個(gè)結(jié)果,人類是沒辦法理解的。我相信現(xiàn)在絕大部分的職業(yè)棋手,都不會(huì)再去問這個(gè)系統(tǒng),為什么要下這步棋,你給我解釋一下這步棋要下在哪里。

我還可以舉一個(gè)更極端的例子,在上世紀(jì) 90 年代到大概 2010 年,圍棋界排名第一的選手是一位韓國棋手,他的外號(hào)叫「石佛」李昌鎬。他曾經(jīng)就對(duì)機(jī)器下圍棋,也就是現(xiàn)在以 AlphaGo 為代表的這種機(jī)器下圍棋的一步棋,發(fā)表過評(píng)論。當(dāng)時(shí)機(jī)器走了一步棋,叫做「點(diǎn)三三」,這是一個(gè)圍棋術(shù)語。之前的人類職業(yè)棋手都認(rèn)為這是一步很差的棋,誰下出來肯定被老師罵的。所以李昌鎬說,在他理解機(jī)器為什么下點(diǎn)三三這步棋之前,他是不會(huì)下這步棋的。所以現(xiàn)在的情況就是,他不下,但是其他所有職業(yè)棋手都下。因此,現(xiàn)在李昌鎬下不過其他人了。

所以我想總結(jié)一下,剛才是講了一些趣事趣聞,就是可解釋性有人類的心理因素在里面。今天機(jī)器下圍棋已經(jīng)遠(yuǎn)遠(yuǎn)超過了人類頂尖棋手,他們可能再也不問可解釋性的問題了。在其他的一些領(lǐng)域,像剛才你提到的醫(yī)療,現(xiàn)在醫(yī)療 AI 的水平可能跟頂尖的醫(yī)生相比還沒有達(dá)到,或者說沒有超過人類頂尖醫(yī)生的水平,所以自然而然地,我們?nèi)祟愒谛睦砩,就?huì)想要問機(jī)器,為什么要做出這樣的判斷。但是,如果未來每一次機(jī)器做出的判斷都比人事后驗(yàn)證更準(zhǔn)確的時(shí)候,也許人就不再問了。

機(jī)器之心:您能夠預(yù)見這樣子的未來嗎?

王立威:這取決于具體是什么問題。因?yàn)閯偛耪f的是下圍棋,最終有勝和負(fù),這是一個(gè)新的信息,我們也認(rèn)為它是一種金標(biāo)準(zhǔn),最終就是誰贏誰輸了。在這樣的一些問題上,機(jī)器確實(shí)能夠超越人類。但也不是所有的問題都有這樣的金標(biāo)準(zhǔn),有的時(shí)候機(jī)器仍然是從人類標(biāo)注的數(shù)據(jù)中去學(xué)習(xí),那么這個(gè)時(shí)候它可能最好也只能學(xué)到人類的頂尖水平。

重新定義泛化

機(jī)器之心:泛化能力是衡量模型性能的一個(gè)重要指標(biāo)。過往我們研究泛化,主要是去考量是什么因素控制了泛化能力。大模型時(shí)代,我們是否需要重新考慮對(duì)泛化能力的定義?

王立威:對(duì),這是一個(gè)非常好的問題。我覺得在過去討論泛化和今天大模型時(shí)代討論泛化,可能具體的定義不太一樣。我先澄清一點(diǎn),過去我們討論泛化,是在一個(gè)比較狹義的意義上去討論,比如說我固定了一個(gè)任務(wù),就是去做一個(gè)分類問題,那么對(duì)于這個(gè)分類問題,我有一些訓(xùn)練數(shù)據(jù),可以用這些數(shù)據(jù)訓(xùn)練模型,并得到一個(gè)訓(xùn)練的準(zhǔn)確率。但還有一些在訓(xùn)練的時(shí)候沒有見過的新數(shù)據(jù),這些數(shù)據(jù)可能是在未來實(shí)際應(yīng)用或者測(cè)試的時(shí)候才會(huì)遇到。那么模型在這些新數(shù)據(jù)上的性能,我們就稱之為泛化性能。但此時(shí)討論的都是一個(gè)非常確定的任務(wù),就是去分類、去識(shí)別。在這樣一個(gè)很狹義的意義上,過去機(jī)器學(xué)習(xí)理論做了很多工作,也建立了一套理論的體系。

但是在今天,由于大模型的出現(xiàn),我們討論的任務(wù)和之前不一樣了。今天我們的大模型能夠處理的任務(wù)是非常之多的,不再是一個(gè)固定的,像圖像分類這樣的單個(gè)任務(wù)。所以我們?cè)谟懻摲夯臅r(shí)候,已經(jīng)不是過去那種狹義的泛化了,甚至我們今天討論的泛化,是指給大模型一個(gè)全新的任務(wù),看它能不能夠把這個(gè)任務(wù)也解決好。所以從這個(gè)層面上說,過去的理論就顯得比較局限了。那么有沒有更新的理論,能夠在剛才說的任務(wù)這個(gè)層面上去分析泛化,現(xiàn)在這方面的工作還比較少,也是未來可以去研究的一個(gè)關(guān)注點(diǎn)。

機(jī)器之心:關(guān)于如何評(píng)估大模型的性能,也是一個(gè)熱點(diǎn)問題,F(xiàn)在的很多 benchmark 都已經(jīng)被刷爛了,或者說不具備跟以往相比那么強(qiáng)的指示性。在這種情況下,如何去評(píng)估一個(gè)模型的性能,您是怎么看的呢?

王立威:今天的大模型,已經(jīng)有相當(dāng)一部分走到了產(chǎn)品這個(gè)層次。那么今天對(duì)大模型的評(píng)估,就應(yīng)該用一種評(píng)估產(chǎn)品的方式。對(duì)產(chǎn)品最好的評(píng)估方式就是交給用戶去使用,讓用戶用他們的體驗(yàn),最后用腳來投票。所有在 benchmark 上的測(cè)試,都只是一種內(nèi)部的測(cè)試,只是一些中間結(jié)果。

因?yàn)榇竽P妥罱K面對(duì)的是用戶,是人,那么它好不好是由人的體驗(yàn)說了算。當(dāng)然,如果你的機(jī)器學(xué)習(xí)模型所處理的任務(wù),確實(shí)存在著一個(gè)客觀的評(píng)判標(biāo)準(zhǔn),其中沒有人主觀因素的干擾,那么全可以通過 benchmark 來評(píng)判。

這也是一個(gè)我覺得思維模式需要轉(zhuǎn)變的地方。因?yàn)檫^去幾十年機(jī)器學(xué)習(xí)的研究,還基本上停留在學(xué)術(shù)的范疇,所以有 benchmark 這樣的指標(biāo)是有助于學(xué)術(shù)研究的。但是,真的到了產(chǎn)品階段,沒有任何一個(gè)產(chǎn)品是用 benchmark 作為最終衡量標(biāo)準(zhǔn)的。

大模型時(shí)代的理論研究

機(jī)器之心:您作為理論研究者,如何看待大模型時(shí)代機(jī)器學(xué)習(xí)理論的價(jià)值和前景?

王立威:我經(jīng)常聽到有人把今天的人工智能和工業(yè)革命做類比。我們可以一起來設(shè)想,第一次工業(yè)革命的代表就是發(fā)明和改良蒸汽機(jī)。如果我們回過頭來看,有沒有什么理論工作是關(guān)于蒸汽機(jī)的設(shè)計(jì)的?

蒸汽機(jī)無疑是傳世的工作,也許當(dāng)時(shí)的確有一些關(guān)于蒸汽機(jī)理論工作,但并沒有流傳下來。我們?cè)賮砜匆豢唇裉斓臋C(jī)器學(xué)習(xí)和深度學(xué)習(xí),其實(shí)也有很多的理論工作,有一些對(duì)實(shí)際的模型和算法設(shè)計(jì)也起到了幫助作用。但是這些工作能不能傳世呢?我必須要打一個(gè)問號(hào),雖然我自己也是做機(jī)器學(xué)習(xí)理論的。

讓我們?cè)倩氐秸羝麢C(jī)的例子,其實(shí)是有相關(guān)的傳世理論的,比如能量守恒定律。這是一個(gè)偉大的理論發(fā)現(xiàn),當(dāng)人們知道了能量守恒之后,就再也不用白費(fèi)力氣設(shè)計(jì)永動(dòng)機(jī)了。其實(shí)在一兩百年前,有無數(shù)的人去設(shè)計(jì)永動(dòng)機(jī)。所以,能量守恒就是一個(gè)典型的傳世理論。

我認(rèn)為在過去大概十來年的時(shí)間里,大家做了很多關(guān)于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)理論研究,有一些工作非常出色,但可能還沒有達(dá)到能夠傳世的水平。如果我們想做出傳世的機(jī)器學(xué)習(xí)理論,可能需要看得更深入,需要去問一些更新的問題,而不是僅僅關(guān)注今天大家研究的這些問題。

機(jī)器之心:比如說哪些問題呢?

王立威:哈哈,如果我要能回答這是什么問題,可能就已經(jīng)解決一半了。我只能說一說我自己一些非常模糊的想法。其實(shí)在過去這幾年,大家對(duì)現(xiàn)在的機(jī)器學(xué)習(xí)理論,也有一些意見,有一些不同的看法。今天的機(jī)器學(xué)習(xí)理論可能太過于追求去解釋機(jī)器學(xué)習(xí)里面的一些實(shí)驗(yàn)現(xiàn)象。也許我們應(yīng)該走得更深,去看一些更本質(zhì)的問題,這些問題不一定要和我們現(xiàn)在實(shí)驗(yàn)中的現(xiàn)象完全對(duì)應(yīng)起來。就像我剛才舉的例子,能量守恒和如何設(shè)計(jì)蒸汽機(jī)可能并不直接相關(guān),但它更本質(zhì)。所以我建議,特別是我們國內(nèi)的這些年輕學(xué)者,可以嘗試從不同的角度,更深入地去思考這些問題。

可以更多一些探索,少一些束縛,不用太被今天大家對(duì)熱點(diǎn)問題的關(guān)注所束縛住。

因?yàn)楹芏鄷r(shí)候研究是沒有辦法預(yù)測(cè)的,深度神經(jīng)網(wǎng)絡(luò)和大模型完全有可能只是一個(gè)局部的極值,真正的全局最優(yōu)可能還需要我們退回去,再走另一條路才能找到。所以應(yīng)該有更多的學(xué)者,特別是青年學(xué)者,去做一些探索。畢竟理論研究也不需要那么多的資源,它可能需要的資源相對(duì)比較少。所以,多做一些自己感興趣的事情,希望大家有這個(gè)勇氣,這確實(shí)也需要一定的勇氣,承擔(dān)一定的風(fēng)險(xiǎn)。

嘉賓簡介

王立威,北京大學(xué)智能學(xué)院教授,研究興趣為機(jī)器學(xué)習(xí)。長期從事機(jī)器學(xué)習(xí)基礎(chǔ)理論研究,為設(shè)計(jì)更有效的新算法提供理論指導(dǎo),并開發(fā)基于機(jī)器學(xué)習(xí)的醫(yī)療影像診斷算法與系統(tǒng)。近來致力于通過機(jī)器學(xué)習(xí)方法解決科學(xué)與數(shù)學(xué)領(lǐng)域重大基礎(chǔ)問題。

王立威教授已在 NeurIPS、ICML、TPAMI 等國際頂級(jí)期刊和會(huì)議上發(fā)表論文 150 余篇,其中關(guān)于圖神經(jīng)網(wǎng)絡(luò)表示理論的兩篇工作分獲 ICLR 杰出論文獎(jiǎng)與提名獎(jiǎng)。擔(dān)任 TPAMI 編委,并長期擔(dān)任 NeurIPS、ICML、ICLR 等機(jī)器學(xué)習(xí)頂會(huì)的領(lǐng)域主席/高級(jí)領(lǐng)域主席。此外,入選 AI's 10 to Watch,是首位獲此殊榮的亞洲學(xué)者。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港