智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
受Google谷歌邀請,智東西到新加坡現(xiàn)場觀看了2024年國際象棋世界冠軍賽,深度體驗了一把AI技術(shù)與棋藝的碰撞。
這次行程收獲頗豐,我們閉門觀看了Google DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis的自傳電影《The Thinking Game》、聽了Google DeepMind資深科學(xué)家Nenad Tomaev探討AlphaZero發(fā)展的演講,還在AI體驗區(qū)暢玩生成式AI設(shè)計棋子。
這次谷歌作為大賽冠名贊助商,把AI和國際象棋的融合鼓搗出花,讓AI既做設(shè)計,又當(dāng)起專業(yè)國際象棋解說。
因為對蛋白質(zhì)結(jié)構(gòu)預(yù)測的重大貢獻(xiàn),Google DeepMind聯(lián)合創(chuàng)始人兼CEO Demis Hassabis和Google DeepMind高級研究科學(xué)家John Jumper共同獲得了2024年諾貝爾化學(xué)獎,電影里回顧了兩人帶領(lǐng)團(tuán)隊用AI改變科研方式的幕后故事。
了解AI發(fā)展史的朋友想必都知道,AI和棋類游戲是一對“初戀CP”。AI產(chǎn)業(yè)革命就是被2016年AlphaGo打敗世界圍棋冠軍李世石給喚醒的。
這次觀影會,就帶領(lǐng)我們回顧了一手造就這對CP的過程。
據(jù)介紹這部自傳電影的拍攝耗時5年,一路跟拍Demis Hassabis和Google DeepMind團(tuán)隊,揭秘了很多細(xì)節(jié),比如Demis Hassabis為啥會從國際象棋選手變成開發(fā)游戲的,為啥在17歲時放棄100萬美元堅決要去讀大學(xué),又為啥在AI很冷門時就毅然要創(chuàng)辦一家AI公司,還選擇研究AI下棋這條古怪賽道。
就是這樣一個看起來完全不知道怎么盈利的創(chuàng)業(yè)方向,在近幾年為全人類創(chuàng)造了無法估量的價值加速破解生命密碼、治愈疑難雜癥的進(jìn)程。
我們也跟隨鏡頭回到了AI產(chǎn)業(yè)革命的起點,看到Demis Hassabis早期對游戲和戰(zhàn)略思維的熱情為他未來在AI領(lǐng)域的開創(chuàng)性工作奠定基礎(chǔ),看到世界頂級AI研究機(jī)構(gòu)如何破釜沉舟、不懈追求創(chuàng)造出在各種任務(wù)上能媲美或超過人類能力的AI。
一群技術(shù)理想主義者在前景模糊時選擇堅定地往前走,最終贏得了世界的掌聲。
一、Demis Hassabis自傳:回首AGI來時路,在挫折中堅持
片名《The Thinking Game》是整部影片的主線。
Demis Hassabis從小在國際象棋上天賦異稟,將這種腦力競技視作一種“思維游戲《The Thinking Game》”。
他琢磨的“思維游戲”,在8歲時變成了寫代碼和制作游戲,日后又變成了AI。他將構(gòu)建AGI(通用人工智能)視作人類踏上的最令人興奮的旅程,想要終其一生進(jìn)行探索,使用AI作為最終工具來解決世界上復(fù)雜的科學(xué)問題。
影片帶領(lǐng)觀眾一起穿越時空,走進(jìn)Google DeepMind實驗室,通過快節(jié)奏的故事展開和高密度的對話補(bǔ)充,回顧這個時代最重要的科學(xué)冒險之一。
1、天才的覺醒
國際象棋的對決是頂尖腦力的碰撞。Demis Hassabis在4歲接觸國際象棋時就已經(jīng)展現(xiàn)出天賦,他在孩提時期就在思索:大腦是怎么做到的?
在12歲參加一場錦標(biāo)賽時,他突然產(chǎn)生了一個直覺:如果把這棟樓所有人的腦力插到一個系統(tǒng)里,能用來解決癌癥問題。這使他覺察到國際象棋不是他一生該做的事。
17歲的Demis Hassabis被劍橋大學(xué)錄取時,因為年紀(jì)太小沒達(dá)到入學(xué)標(biāo)準(zhǔn)。于是他加入了一家游戲開發(fā)公司Bullfrog Games,參與開發(fā)了史上最成功的游戲之一模仿人類行為的《主題公園》(Theme Park),展現(xiàn)了AI如何能帶來改變。
后來Bullfrog老板愿掏100萬美元,讓Demis Hassabis不要繼續(xù)上大學(xué)。在20世紀(jì)90年代,對于一個17歲的窮小子來說,100萬是一筆相當(dāng)大的誘惑。但被拒絕了,他對上劍橋大學(xué)意向堅決,想成為解決AI的人。
1997年,IBM“深藍(lán)”擊敗國際象棋冠軍卡斯帕羅夫。令Demis Hassabis印象深刻的不是AI系統(tǒng)“深藍(lán)”,而是卡斯帕羅夫的頭腦,他可以跟頂尖AI對弈,也可以做其他很多“深藍(lán)”不會的事情。
“通用”,才是真正智能的關(guān)鍵。
用AI解決生物醫(yī)學(xué)問題的萌芽,則跟一個熱衷于蛋白質(zhì)折疊問題的朋友有關(guān)。朋友癡迷的討論觸發(fā)Demis Hassabis的思考,他認(rèn)為這可以用AI改變。
2、秘密的啟航
Demis Hassabis剛開始研究AI時,在學(xué)術(shù)圈得不到什么支持。那會兒AI研究還是幾乎尷尬的存在,甚至不被認(rèn)為是門嚴(yán)肅的科學(xué)。
做AI將需要大量的資金、大量的計算,頂著巨大的風(fēng)險。但他相信,一旦成功,這將是有史以來的一件大事!
為這個項目尋找初始資金異常困難,他們四處推銷,告訴投資人這是有史以來最重要的事情,然后聽到經(jīng)典問題:你的產(chǎn)品是什么?怎么賺錢?
2010年,Demis Hassabis等人創(chuàng)辦DeepMind,并堅持將DeepMind總部設(shè)在英國倫敦。他認(rèn)為真正了不起的人在劍橋、牛津、UCL等高校;而硅谷每年投大量公司,不見效就立刻換新的,這種風(fēng)氣不利于長期研究挑戰(zhàn)。
創(chuàng)立頭兩年,DeepMind沒有出現(xiàn)在公眾視野,一切都很模糊,沒建網(wǎng)站,辦公室在一個秘密地點,一度被來應(yīng)聘者的家人擔(dān)心是騙子公司。
后來有兩家公司參與了收購DeepMind的談判。Demis Hassabis很糾結(jié)。他希望收購方意識到研究的重要性,給足夠的研究時間、不緊盯商業(yè)利益。
最終,DeepMind被谷歌以4億英鎊收購了。DeepMind團(tuán)隊也沒有搬去硅谷,仍在倫敦獨立運營。
3、從戰(zhàn)勝人類到改變科研
在Demis Hassabis看來,游戲是AI的完美訓(xùn)練場。
DeepMind將強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)結(jié)合,想要訓(xùn)練AI最多能玩上千種不同的雅達(dá)利游戲。一開始AI玩游戲總是丟分,經(jīng)過幾百場比賽后,它突然能玩得像人類一樣好。
通用智能的雛形出現(xiàn)了。DeepMind的團(tuán)隊又將挑戰(zhàn)的目標(biāo)轉(zhuǎn)向圍棋,讓AI圍棋系統(tǒng)AlphaGo看了10萬場比賽,然后模仿人類選手。最終在舉世矚目的人機(jī)對決上,AlphaGo擊敗了世界圍棋冠軍李世石。第二年,AlphaGo又戰(zhàn)勝了代表圍棋頂級戰(zhàn)力的中國選手柯潔。
隨后,DeepMind發(fā)現(xiàn)了一種更優(yōu)雅的方法,剝離了所有人類知識,讓AI完全從零開始自學(xué)。能夠掌握三種不同復(fù)雜游戲的AlphaZero由此誕生,它自學(xué)了國際象棋、將棋、圍棋,并都擊敗了世界冠軍程序,標(biāo)明單一算法可以學(xué)習(xí)如何在各種環(huán)境中發(fā)現(xiàn)新知識。
▲AlphaZero僅用4小時就首次超越了國際象棋程序Stockfish,僅用2小時首次超越Elmo,僅用30小時首次超越AlphaGo版本
下一個挑戰(zhàn)是讓AI打《星際爭霸》游戲。一開始AlphaStar連業(yè)余選手都打不過,但最終它做到與《星際爭霸》職業(yè)選手展開了一場精彩的對決。
幾次人機(jī)大戰(zhàn)背后,Google DeepMind團(tuán)隊都頂著失敗和不被看好的壓力。一旦AI輸了,團(tuán)隊就會回到桌前進(jìn)行改進(jìn)。
Demis Hassabis隨即轉(zhuǎn)向更大的挑戰(zhàn)用AI解決蛋白質(zhì)折疊問題。
盡管第一代AlphaFold贏得了國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽,但它遠(yuǎn)不夠解決現(xiàn)實科研問題。Demis Hassabis大膽指定年輕資淺的John Jumper當(dāng)突擊組組長,并補(bǔ)充了計算生物學(xué)家成員。
Jumper突擊小組將AI算法完全推倒重來,在疫情居家辦公的艱難環(huán)境中,成功研發(fā)出革命性的AlphaFold2,破解了50年來的蛋白質(zhì)折疊難題,拉開了整個蛋白質(zhì)結(jié)構(gòu)世界的簾幕,大舉加速新藥開發(fā)的進(jìn)程。(Demis Hassabis和Jumper因此斬獲2024年諾貝爾化學(xué)獎)
Google DeepMind還在探索更廣泛的智能。
在影片結(jié)尾,Demis Hassabis拿著手機(jī)將鏡頭掃過桌面上的棋盤、鉛筆雕塑……,向AI發(fā)問,AI則能毫不費力地對答如流。
從創(chuàng)立到現(xiàn)在,Google DeepMind一直在做探索無人區(qū)的研究,換言之沒有人知道這是不是一條有生之年會成功的路,但團(tuán)隊中的成員們都認(rèn)可相同的目標(biāo),而且堅持往前走。這在被追問商業(yè)盈利前景的現(xiàn)實創(chuàng)業(yè)環(huán)境中很難得,谷歌確實給了Google DeepMind很大的自由和底氣。
影片也有稍顯遺憾之處。這部雖然叫Demis Hassabis的自傳電影,看起來更像是Google DeepMind成長的紀(jì)錄片,但對Demis Hassabis的刻畫卻顯得封閉而內(nèi)斂。在影片中,他像個緘默的天才。觀眾只能聽到他宣之于口的觀點,卻很難感受到他的內(nèi)心世界。
2、AI體驗區(qū):將AI引入國際象棋,帶給棋迷智能新工具
這次多謝谷歌邀請,現(xiàn)場觀看了一場世界棋王丁立人和印度特級大師古克什的對壘。將現(xiàn)場的局勢拍給Gemini,它則能對棋局進(jìn)行分析和預(yù)測。
谷歌通過Gemini打造了Chatting Chess體驗,可以用生動有趣的語言,深入淺出地講解國際象棋中各種復(fù)雜概念,比如解釋開局策略、棋子結(jié)構(gòu)抑或是科普國際象棋冠軍賽的一些關(guān)鍵里程碑。
看AI分析棋局還是有一定門檻的。谷歌推出的另一個互動項目GenChess則更輕松易玩用生成式AI設(shè)計國際象棋棋子。
這也是我在AI體驗區(qū)駐留最久的展位。上手很輕松,輸入關(guān)鍵詞,選“經(jīng)典”或“創(chuàng)意”風(fēng)格,AI就能按照你的關(guān)鍵詞來創(chuàng)作出一組個性化的棋子。
生成過程快到只有幾秒鐘,背后是Imagen 3和Gemini Flash*模型在發(fā)揮作用。在體驗區(qū)可將自己鐘意的棋子設(shè)計打印出來。
具體實現(xiàn)方法是:輸入關(guān)鍵詞后,Gemini Flash會將其增強(qiáng)為詳細(xì)且富有創(chuàng)意的提示詞,每個提示詞對應(yīng)于象棋中的6個棋子之一。然后Imagen3基于這些被增強(qiáng)的提示詞, 生成一套獨特的國際象棋。
在新加坡,我也在線上體驗了這個項目(部分Google技術(shù)僅適用于出海技術(shù)開發(fā)者)。功能更豐富,點擊“Generate Opponent”,它會自動根據(jù)你輸入關(guān)鍵詞的對立主題來生成對手棋,比如“奶酪”對應(yīng)“紅酒”、“Meme”對應(yīng)“Reality”。
然后就可以來一盤國際象棋比試了。用自己和AI聯(lián)合設(shè)計的棋子來下棋,格外愉快。
游戲提供了三種難度選項(簡單、中等、困難)和兩種計時選項(5/3和10/0)。
除了AI設(shè)計棋子、跟AI下棋外,谷歌還在國際象棋世界冠軍賽期間推出很多有意思的AI項目,比如與國際棋聯(lián)合作在全球最大AI/ML開源社區(qū)Kaggle上舉辦國際象棋AI編程挑戰(zhàn)賽。
在AI+國際象棋領(lǐng)域整活兒,還得是谷歌。
三、Google DeepMind大牛硬核分享:破譯AlphaZero與游戲創(chuàng)造性
除了輕松的體驗環(huán)節(jié)外,我們還有幸聽了一堂關(guān)于AI國際象棋算法的大師課。
演講者是Google DeepMind資深研究科學(xué)家Nenad Tomaev。他不僅深度參與了AlphaZero的開發(fā),也是一名國際象棋選手。
在超過1小時的演講及Q&A環(huán)節(jié),他深度分享了AI與游戲的關(guān)聯(lián)、AlphaZero的發(fā)展歷程、AI在下棋時的“大腦”內(nèi)部運行機(jī)制等內(nèi)容。
通過這場演講,我們對Demis Hassabis所說的“游戲是AI的完美訓(xùn)練場”有了更清晰的認(rèn)知。
游戲設(shè)置的清晰目標(biāo)有助于衡量進(jìn)展,多樣化挑戰(zhàn)可激勵智能,模擬環(huán)境能測試大量想法,而且可將AI性能量化并與人類能力對比,從游戲中獲取的算法設(shè)計經(jīng)驗也可以復(fù)用于在其他領(lǐng)域構(gòu)建AI系統(tǒng)。這提供了開發(fā)和測試AI算法的絕佳環(huán)境。
傳統(tǒng)國際象棋引擎依賴于人類玩家的經(jīng)驗與規(guī)則。前代用深度神經(jīng)網(wǎng)絡(luò)設(shè)計的下棋程序也需從人類比賽中學(xué)習(xí)。AlphaZero則采用了完全不同的方法,從隨機(jī)游戲開始訓(xùn)練,在沒獲取任何人類先驗知識的情況下自學(xué)成才。
這種算法設(shè)計思路使AlphaZero不受人類游戲規(guī)則約束,具備重新學(xué)習(xí)每一種游戲的能力,因此掌握了更強(qiáng)的“通用性”。
Nenad Tomaev提到AlphaZero在搜索棋路時優(yōu)先考慮質(zhì)量,而非數(shù)量,不用傳統(tǒng)搜索算法也能構(gòu)建出更強(qiáng)大的網(wǎng)絡(luò)。傳統(tǒng)方法用子力價值進(jìn)行快速位置評估。AlphaZero則不太重視子力價值,而是愿意在游戲初期犧牲子力,以獲取長期戰(zhàn)略優(yōu)勢。
其初步評估偏離了人類感知,但隨著訓(xùn)練推進(jìn)而收斂,它展示了一個平行于人類戰(zhàn)略進(jìn)化的學(xué)習(xí)曲線。該模型的偏好從子力豐富轉(zhuǎn)向位置優(yōu)勢,表明國際象棋理解的成熟類似于人類玩家。
國際象棋的美妙之處在于找到規(guī)則的例外。由于計算限制,AI必須通過創(chuàng)造性地解決問題。
AlphaZero能發(fā)現(xiàn)與傳統(tǒng)人類游戲玩法不一致的新穎復(fù)雜概念,做出不明顯但有利的選擇,拓展對策略游戲中AI認(rèn)知的理解界限。AI還有助于給人類棋手的策略帶來新啟發(fā),豐富了數(shù)百年來對國際象棋策略的思考。
DeepMind探索了在AlphaZero引入“多重人格”的方法,希望讓AI能平等考慮所有選擇,從而優(yōu)化決策過程。他們打造了一個由不同AlphaZero組成的單一網(wǎng)絡(luò),相當(dāng)于有一個多元化的團(tuán)隊,取決于AlphaZero扮演哪個玩家,每個玩家的策略都不同,有一個目標(biāo)來激勵不同參與者的不同策略的多樣性,這些策略會以某種方式組合,產(chǎn)生最終的行動。
多個AlphaZero算法與不同策略集的方法,最初可能涉及較少的最優(yōu)解,但最終通過創(chuàng)造性的適應(yīng)和迭代帶來更好的性能。引入策略變化可以使國際象棋中的AI Agent更強(qiáng)大、更具創(chuàng)造力。
關(guān)于破譯深度學(xué)習(xí)黑盒的問題,Nenad Tomaev認(rèn)為,這個問題永遠(yuǎn)不會得到完全解答,因為人類也并不能完全理解自己,會因為非常模糊的原因、基于自己并不完全理解的直覺做出很多決定。Gemini、ChatGPT等系統(tǒng)也是這樣,它們可以告訴你給出這些答案的思考過程,但這些答案不會100%準(zhǔn)確。
據(jù)Nenad Tomaev分享,一種受AlphaZero啟發(fā)的新方法正在醫(yī)療健康領(lǐng)域探索。特別是一個對話診斷系統(tǒng),通過模擬訓(xùn)練,語言模型承擔(dān)醫(yī)生和患者的角色,通過提出適當(dāng)?shù)膯栴}和進(jìn)行鑒別診斷,進(jìn)而提高診斷準(zhǔn)確性。該方法處于概念驗證階段,尚未在真實患者身上測試,但初步人體試驗已顯示出有希望的結(jié)果,在很大一部分病例中表現(xiàn)優(yōu)于人類醫(yī)生。
結(jié)語:AI在棋盤上的探索遠(yuǎn)無止境
棋類游戲是AI走進(jìn)大眾視野的第一站。從AlphaGo系列與人類高手的切磋,再到后來預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold、加速數(shù)學(xué)研究的AlphaProof、發(fā)現(xiàn)全新算法的AlphaDev,AI發(fā)展日新月異,對生活、行業(yè)及科研都產(chǎn)生了不可逆轉(zhuǎn)的積極影響。
從無人問津之時,Google DeepMind團(tuán)隊已經(jīng)為自己立下一個不圖功利的遠(yuǎn)大目標(biāo),谷歌也為其提供了源源不斷的資源支持和寬松優(yōu)越的研發(fā)環(huán)境。
在他們證明了AI具備突破智力極限的潛能后,深度學(xué)習(xí)革命才一夜席卷大江南北,幫助人類解決從日,嵤碌綇(fù)雜的科學(xué)難題。
今天,AI下國際象棋不再稀奇,但AI+國際象棋的探索空間遠(yuǎn)無止境,既在棋盤之上,又超越棋盤,將自主學(xué)習(xí)機(jī)制及改進(jìn)方法用于探索新藥發(fā)現(xiàn)、醫(yī)療健康、量子計算等更多領(lǐng)域,助力人類探索科學(xué)進(jìn)步和創(chuàng)造力的更高峰。
*部分Google技術(shù)僅適用于出海開發(fā)者