你以為人工智能的故事始于硅谷?不,它的根須深植于五億年前的生命起源。
在巴黎人工智能峰會開幕式上,斯坦福大學(xué)教授、人工智能專家李飛飛發(fā)表了主題演講,揭示了人工智能如何從“觀察者”轉(zhuǎn)變?yōu)橹厮苁澜绲摹靶袆诱摺。她在致辭中,分析了“行動派”人工智能的意義,并呼吁各界共同努力,構(gòu)建以人為中心的人工智能生態(tài)系統(tǒng),以促進(jìn)人工智能的健康發(fā)展。
演講者 | 李飛飛
出品丨AI 科技大本營(ID:rgznai100)在許多人眼中,人工智能是關(guān)于技術(shù)、現(xiàn)代世界和未來的故事,而這正是我們今天在此相聚的原因。但對我而言,人工智能的故事,更要追溯到五億年前的生命起源之初。
那是極其遙遠(yuǎn)的時代,遠(yuǎn)到視覺尚未出現(xiàn),眼睛也未進(jìn)化。沒有任何生物親眼目睹世界,所有生命都處于一片黑暗之中,就像你們現(xiàn)在在屏幕上看到的那樣。
要回顧五億年歷史,一篇文章顯然不夠。因此,我將長話短說。當(dāng)進(jìn)化賦予這些生物感知和回應(yīng)外界刺激的能力時,即便只是微弱的感知,一場進(jìn)化競賽便拉開了序幕。從最初被動地感受光線,到逐漸變得豐富和活躍,神經(jīng)系統(tǒng)開始進(jìn)化,視覺發(fā)展為洞察力,看見成為理解,理解力催生行動所有這些共同孕育了智能,并永遠(yuǎn)改變了地球生命的本質(zhì)。
快進(jìn)五億年,回到今天,人類的智能已引導(dǎo)我們以前所未有的方式構(gòu)想和塑造工作與生活。我們不再滿足于自然賦予的智能,好奇心驅(qū)使我們創(chuàng)造機(jī)器,賦予它們與我們匹敵,甚至超越我們的智能。
因此,我們本周探討的這項開創(chuàng)性技術(shù),其探索之旅始于 20 世紀(jì)中期。英國偉大的數(shù)學(xué)家艾倫圖靈極具遠(yuǎn)見,早在計算機(jī)誕生之前,他就已開始思考賦予機(jī)器媲美人類認(rèn)知能力的智能這一哲學(xué)問題。對我而言,他的著作始終是一種挑戰(zhàn),激勵人類大膽想象會思考的機(jī)器,正如他所預(yù)見的那樣。
同樣的求知欲和雄心也激勵著早期的美國計算機(jī)科學(xué)家。他們不僅發(fā)起首個研究項目,探索會思考的機(jī)器的可能性,更在 1956 年那個炎熱的夏天,在“人工智能”概念普及之前數(shù)十年,創(chuàng)造了“人工智能”這個術(shù)語本身。這是他們?yōu)槟谴窝杏憰珜懙难芯空撐牡慕貓D。
坦白說,有趣的是,他們當(dāng)時認(rèn)為在兩個月內(nèi)就能解決大部分問題,并揭開智能之謎;蛟S他們過于樂觀,但其膽識令人欽佩。如今,我們在這項“為期兩個月”的項目上已投入 820 個月,但我們已取得顯著進(jìn)展。
對人工智能的另一個誤解是,它僅僅是計算機(jī)和工程學(xué)的問題。然而,事實上,人工智能始終是一項充滿活力的多學(xué)科事業(yè)。我們身處的現(xiàn)代人工智能時代,是三項意義深遠(yuǎn)且截然不同的技術(shù)與科學(xué)進(jìn)步融合的成果。
首先是對感知算法的研究,即探究生物(包括人類)如何理解周圍世界。最終目標(biāo)是創(chuàng)建數(shù)學(xué)模型,使機(jī)器也能做到這一點。在艾倫圖靈(Alan Turing)提出大膽設(shè)想、以及達(dá)特茅斯人工智能夏季研討會召開幾年后,神經(jīng)生理學(xué)家Hubel和Wiesel首次闡明了哺乳動物視覺皮層神經(jīng)元處理信息的分層結(jié)構(gòu),這項發(fā)現(xiàn)為他們贏得了諾貝爾獎,并徹底革新了我們對視覺處理的理解。
大約在同一時期,心理學(xué)家弗蘭克羅森布拉特構(gòu)建了最早的神經(jīng)網(wǎng)絡(luò)原型之一感知器。這項工作激勵了其后數(shù)十年的計算機(jī)科學(xué)家,特別是早期的先驅(qū)者,如福島邦彥、杰夫辛頓(Geoffery Hinton)、楊立昆(Yann LeCun)、約書亞本吉奧(Yoshua Bengio)等人,去設(shè)計日益復(fù)雜的模型,最終發(fā)展成我們今天熟知的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法,賦予了機(jī)器不可思議的能力。
與此同時,第二個研究方向也逐漸興起。認(rèn)知科學(xué)家們深入研究人類自身的思維,揭示了我們感知環(huán)境能力的驚人深度和復(fù)雜性。他們的研究明確指出,我們的大腦與進(jìn)化所處的環(huán)境密不可分。大腦并非僅僅是鎖在顱骨中的機(jī)器,而是自生命之初,就渴望從每一縷光線、一絲觸感、一聲細(xì)語中學(xué)習(xí)的求知者。
對我個人而言,作為一名在 21 世紀(jì)初嶄露頭角的科學(xué)家,感知算法幾乎是我研究領(lǐng)域的唯一焦點。認(rèn)知科學(xué)給我的啟示是“規(guī)模”(Scale)的重要性。進(jìn)化和發(fā)展受益于海量數(shù)據(jù)驅(qū)動學(xué)習(xí),我們推測機(jī)器亦是如此。但這一次,機(jī)器不再使用生物傳感器采集數(shù)據(jù),而是來自現(xiàn)代數(shù)字設(shè)備和互聯(lián)網(wǎng)。這啟發(fā)了我的實驗室開展 ImageNet 項目,這是首個互聯(lián)網(wǎng)規(guī)模的人工智能訓(xùn)練和評估數(shù)據(jù)集。我們關(guān)于“數(shù)據(jù)是神經(jīng)網(wǎng)絡(luò)等高容量算法關(guān)鍵”的假設(shè),以前所未有的方式煥發(fā)活力,并掀起全球范圍內(nèi)使用大數(shù)據(jù)進(jìn)行人工智能研究的浪潮,這便是如今被稱為人工智能縮放定律(Scaling Law)的開端。
然而,最終,如果沒有強(qiáng)大的算力來運行這些算法,所有這些成就都難以實現(xiàn),甚至無法起步。這要從馮諾依曼架構(gòu)等里程碑式的發(fā)展說起。這種計算機(jī)架構(gòu)范式最早在 20 世紀(jì) 40 年代提出,至今仍被沿用,并催生了20世紀(jì)70年代早期首批微處理器的誕生。
但有趣的是,是視頻游戲推動了硅芯片原始速度的極限。一個始于 20 世紀(jì) 90 年代初、旨在提升游戲畫面的產(chǎn)業(yè),在短短幾十年內(nèi)發(fā)展成全球性的強(qiáng)大產(chǎn)業(yè),英偉達(dá)等巨頭制造出日益強(qiáng)大的圖形處理器(GPU)。這最終成為神經(jīng)網(wǎng)絡(luò)算法能夠從互聯(lián)網(wǎng)規(guī)模的大數(shù)據(jù)中學(xué)習(xí)的最后一塊拼圖。因此,如果有游戲玩家在場,我們必須感謝你們。
當(dāng)然,這不僅僅是歷史回顧,更是構(gòu)建未來的藍(lán)圖。2012 年,在 ImageNet 挑戰(zhàn)賽上,我的實驗室率先將算法、數(shù)據(jù)和算力這三個要素首次以足夠大的規(guī)模結(jié)合,幾乎在一夜之間改變了整個領(lǐng)域。機(jī)器首次能夠理解并可靠地描述圖像內(nèi)容,數(shù)百萬張圖像。這在今天看來理所當(dāng)然,但在當(dāng)時,這是一個尚未解決的難題,一種近乎科幻的能力。這是里程碑式進(jìn)展中倒下的第一塊多米諾骨牌,而且隨著時間推移,這些進(jìn)展愈發(fā)迅猛。
如今,十多年過去,我們?nèi)栽谔剿鬟@一切的意義。最初只是學(xué)術(shù)上的好奇,如今卻年復(fù)一年地受到商業(yè)領(lǐng)袖、企業(yè)家、行業(yè)分析師乃至政治家的高度關(guān)注,且這種關(guān)注似乎有增無減。我們正處于人工智能的第一個真正時代,一個歷史學(xué)家未來必將如此稱呼的時代,大約持續(xù)十年左右。無論以何種指標(biāo)衡量計算機(jī)科學(xué)學(xué)位、人工智能項目、投資金額、初創(chuàng)企業(yè)等等人工智能都是一場規(guī)模和范圍不斷擴(kuò)大的革命。
無需贅言,在過去幾年中,隨著大語言模型的問世,人工智能迎來又一個驚人的轉(zhuǎn)折點。這些模型將現(xiàn)代人工智能的三個要素擴(kuò)展到更大規(guī)模:一種名為 Transformer 的新架構(gòu),在近乎整個互聯(lián)網(wǎng)的數(shù)據(jù)上訓(xùn)練,并由驚人數(shù)量的頂尖芯片提供算力支持。正如大家所見,其結(jié)果是機(jī)器能力以前所未有的速度爆發(fā)。我們現(xiàn)在已習(xí)以為常地認(rèn)為,人工智能能夠用流利的自然語言與我們對話,回答幾乎任何領(lǐng)域的問題,甚至生成復(fù)雜的圖像、聲音、音樂和視頻。ChatGPT 的巨大成功,創(chuàng)下用戶采納率記錄,充分證明了這項創(chuàng)新對日常生活的影響。
這些能力并非僅停留在表面。如圖所示,近年來,人工智能模型在從手寫識別到博士級科學(xué)問題等一系列基準(zhǔn)測試中,表現(xiàn)突飛猛進(jìn)。在某些極具挑戰(zhàn)性的任務(wù)中,其性能提升曲線幾乎呈垂直上升。
從流暢的語言能力出發(fā),大語言模型現(xiàn)在在問題解決中扮演著更積極的角色,能夠分解任務(wù)并規(guī)劃實現(xiàn)現(xiàn)實世界目標(biāo)的步驟。許多人將這種被稱為“Agentic AI”的人工智能智能體,視為這項重大技術(shù)在 2025 年的新篇章,它將為眾多用戶和企業(yè)帶來變革。
然而,未來還有更多值得期待。智能不僅限于語言智能。以人類為例,我們是作為一個整體而智能的生物。一個嶄新的篇章正在開啟,空間感知能力正擴(kuò)展為更加積極主動的能力。在我所從事的相機(jī)和機(jī)器人領(lǐng)域,人工智能開始在有形或無形的 3D 空間中進(jìn)行創(chuàng)造、理解、推理和互動。它可以用于與人或物交互,我們稱之為空間智能和具身智能。
如今,我們的視覺智能使我們能夠輕松識別出圖中的所有物體:貓、盆栽、桌子,當(dāng)然還有那杯牛奶。但這真的是我們感知能力的全部嗎?我敢肯定,仔細(xì)觀察這張照片,肯定有不少人不僅理解了畫面內(nèi)容,還非常想伸出手去扶住那杯牛奶,以免它掉在地上摔碎。這只是一個微小的例子,卻突顯了從“觀察”到“行動”之間存在著深刻的差異。它預(yù)示著我認(rèn)為我們即將到達(dá)的轉(zhuǎn)折點:人工智能將從觀察者轉(zhuǎn)變?yōu)榕c我們并肩行動的行動者。
事實上,就我所敬佩的艾倫圖靈而言,我現(xiàn)在認(rèn)為他對未來的愿景過于狹隘,略顯內(nèi)向。進(jìn)化本身明確地告訴我們,智能的真正力量不僅在于思考,更在于運用思考驅(qū)動行動。想想人類的空間智能如何賦予我們力量,去建設(shè)我們的文明,從古代金字塔到工業(yè)革命,從科學(xué)發(fā)現(xiàn)到藝術(shù)表達(dá)。當(dāng)人工智能擴(kuò)展我們的空間智能和具身智能時,我們與周圍世界的關(guān)系將發(fā)生怎樣的進(jìn)一步變化?它將幫助我們創(chuàng)造和發(fā)現(xiàn)什么?我們又將構(gòu)建怎樣的未來?
同樣令人興奮的是,機(jī)器人技術(shù),作為具身人工智能的一種形式,也在迅速發(fā)展。我在實驗室的研究,是將機(jī)器人學(xué)習(xí)與大語言模型和視覺模型相結(jié)合的最新例證。與以往那些高度編程和精心設(shè)計的機(jī)器人相比,這些研究使機(jī)器人能夠在更加開放、真實的場景中執(zhí)行日常的人類任務(wù)。
這些都是令人振奮的可能性。但是,如果人工智能真的不僅成為會思考的機(jī)器,更成為會行動的機(jī)器,那么我們引導(dǎo)這項技術(shù)的集體責(zé)任就變得更加迫切和重要。我認(rèn)為,稱這一切已將我們帶到一個具有文明影響的時刻,絕不為過。那么,我們該如何應(yīng)對?
多年來,這個問題一直指引著我的工作。雖然我確信沒有簡單的答案,但有一個主題始終貫穿于我的所有研究:以人為中心的人工智能。它由三個簡單的價值觀構(gòu)成:尊嚴(yán)、自主性和社群。
首先是尊嚴(yán)。面對日益強(qiáng)大的技術(shù),我們?nèi)祟惓3C媾R一個問題:是什么定義了我們?拋開我們能夠完成的所有任務(wù),作為人類的自豪感,自主做出決定和采取行動的能力,仍然是我們存在的基石。如果這項技術(shù)能夠幫助守護(hù),甚至將這種尊嚴(yán)感帶回給我們所有人,特別是最脆弱的群體,那將令我無比振奮。這是一個關(guān)于機(jī)器人技術(shù)和人工智能技術(shù)如何幫助賦予甚至癱瘓病人自主能力的例子。
在斯坦福大學(xué),我的合作者和學(xué)生們通過非侵入式腦電圖(EEG)收集腦電波,純粹通過人的意念來控制機(jī)械臂。我們的人工智能算法能夠解碼人的意念和指令,并引導(dǎo)機(jī)械臂制作出一份完整的日式壽喜燒。
第二是自主性。我實驗室研究工作的一個核心原則是探索人工智能的應(yīng)用,以增強(qiáng)人類能力,而非取代人類。正如歷史上每一次重大技術(shù)變革都重塑勞動力市場一樣,人工智能的進(jìn)步也必然會對就業(yè)崗位產(chǎn)生影響。但我認(rèn)為,人工智能不應(yīng)取代我們,而應(yīng)助力我們提升能力,從創(chuàng)造力到醫(yī)療健康,從科學(xué)發(fā)現(xiàn)到工業(yè)制造。人工智能的諸多技能與人類技能互補,我們擁有大量機(jī)會,利用這種數(shù)字或物理的協(xié)作方式來增強(qiáng)自身能力。我實驗室過去十年在人工智能醫(yī)療健康領(lǐng)域的探索,讓我看到了諸多機(jī)遇,人工智能可以幫助提升護(hù)理質(zhì)量,減輕醫(yī)護(hù)人員負(fù)擔(dān)。這里有三個例子,展示了如何利用人工智能算法驅(qū)動的智能攝像頭,來幫助醫(yī)院提高臨床醫(yī)生的手部衛(wèi)生習(xí)慣,幫助記錄患者的行動鍛煉,以及輔助手術(shù)器械跟蹤。
最后但同樣重要的是社群。過去十年,很多時候技術(shù)的故事都在將我們彼此分離:信息繭房、煽動性內(nèi)容等等。人工智能正處在又一個岔路口。一條路通向人工智能使真實的社交體驗黯然失色,個性化定制內(nèi)容強(qiáng)化我們偏見的世界;另一條路則通向人工智能幫助我們建立更美好、更強(qiáng)大社群的世界。例如,教育輔助工具可以將學(xué)習(xí)機(jī)會帶給更多人,包括孩子和成年人。
這里有兩個簡單的例子:左邊是使用人工智能和虛擬現(xiàn)實技術(shù)作為個性化學(xué)習(xí)工具,幫助患有閱讀障礙的大學(xué)生取得更好學(xué)習(xí)效果;右邊是由美國布法羅大學(xué)創(chuàng)建的人工智能專家系統(tǒng),旨在彌補語言病理學(xué)家短缺問題,以便對 3 至 10 歲有言語和語言障礙的兒童進(jìn)行早期干預(yù)。
所有這些都引出了我想分享的最后一個想法。在這個具有文明意義的關(guān)鍵時刻,我們?nèi)绾尾拍芄餐Γ岳硇、?wù)實和負(fù)責(zé)任的態(tài)度治理人工智能,從而守護(hù)其驚人的潛力?
首先,至關(guān)重要的是,我們的治理要以科學(xué)為基礎(chǔ),而非科幻想象。從街頭巷尾到華爾街,今天關(guān)于人工智能的大部分討論,都被聳人聽聞和夸大的言論所渲染,導(dǎo)致了具有誤導(dǎo)性的人工智能治理政策。相反,我們需要運用更科學(xué)的方法來評估和衡量人工智能的能力與局限性,從而制定更精準(zhǔn)、更可操作、更符合實際的政策。
進(jìn)而引出我的第二點,即在人工智能治理方面,要采取務(wù)實的態(tài)度,而非意識形態(tài)化的立場。人工智能有望成為一項強(qiáng)大技術(shù),若能合理運用,它可以幫助我們生活得更美好,工作得更高效。因此,我們不應(yīng)阻礙這項仍處于發(fā)展初期技術(shù)的探索與研究,而應(yīng)更加關(guān)注其具體應(yīng)用,確保其有益用途,并防范潛在的負(fù)面影響。
最后,我們需要投入資源,構(gòu)建更健康、更具活力的人工智能生態(tài)系統(tǒng)。在這個生態(tài)系統(tǒng)中,學(xué)術(shù)界、創(chuàng)業(yè)者、開源社區(qū)和公共部門都應(yīng)積極參與,與大型企業(yè)共同發(fā)揮關(guān)鍵作用,推動技術(shù)進(jìn)步。如果人工智能要改變世界,我們需要各行各業(yè)的人都參與塑造這一變革。
在本文的前半部分,我提到了現(xiàn)代人工智能的三個關(guān)鍵要素:算法、數(shù)據(jù)和算力。如果這些資源過度集中在少數(shù)公司手中,人工智能生態(tài)系統(tǒng)將因缺乏好奇心驅(qū)動的研究、頂尖人才培養(yǎng)、開源協(xié)作和多學(xué)科探索而受到損害。
75 年前,艾倫圖靈就已洞見未來,并深受啟發(fā),大膽挑戰(zhàn)人類去創(chuàng)造會思考的機(jī)器。今天,我們已將圖靈的挑戰(zhàn)推進(jìn)到他可能無法想象的程度。人工智能時代的科技進(jìn)步令人嘆為觀止。我認(rèn)為,現(xiàn)在是時候提出新的挑戰(zhàn)了。與其僅僅自問“我們能否創(chuàng)造人工智能”,不如反思“我們能否將人工智能塑造成一種向善的力量”。
簡而言之,今天我想向所有人發(fā)出挑戰(zhàn):共同構(gòu)建以人為中心的人工智能。
峰會完整回顧:https://www.youtube.com/watch?v=UOyx1dTPAV4