劃重點
01Tesla 創(chuàng)始人兼 AI 負責(zé)人安德烈亞斯卡帕西奧表示,AI 技術(shù)將逐漸取代整個技術(shù)棧,但需要循序漸進。
02他認為,機器人和汽車本質(zhì)上并沒有太大的差別,關(guān)鍵在于執(zhí)行機制和相關(guān)的行動數(shù)據(jù)。
03然而,卡帕西奧指出,目前還無法完全確保機器人在與老年人等人群互動時的安全性,因此需要進一步改進。
04此外,卡帕西奧預(yù)測,未來可能面向消費者開發(fā)的機器人,比如 Unitree G1,將成為智能家居領(lǐng)域的重要工具。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
本篇內(nèi)容是「AGIX 投什么」的第 6篇。AGIX 指數(shù)是從全球上千家科技上市公司中精選出的 40 家“高 AI 純度”公司的組合。AGIX 指數(shù)即是定位 AGI 進程的坐標,也為投資人捕捉 AI-alpha 提供了價值工具。在「AGIX 投什么」板塊,我們會對 AGIX Index 的組合公司進行深度分析,為市場輸出全面的 AI 投資參考。
Tesla 是 AGIX Index 組合的前 10 大持倉公司之一,公司在過去 10 年在自動駕駛和機器人的大規(guī)模投入讓其有機會成為物理世界 AGI 最強玩家。近期,Tesla 迎來2024 年內(nèi)第二波股價上漲,不僅達到最近 2 個月以來的最高水平,還抹平了今年以來所有跌幅并轉(zhuǎn)漲,AI 是驅(qū)動這輪增長的最重要因子。
10 月 10 日, Tesla 將正式發(fā)布的 Robotaxi,根據(jù) ARK 的分析,預(yù)計到 2029 年,特斯拉近 90% 的企業(yè)價值和收益將歸因于自動駕駛出租車業(yè)務(wù)。本周,Tesla 還調(diào)低了 FSD 的選裝價格,推動新車銷售同時,F(xiàn)SD 選裝率的提升也會幫助 Tesla 收集更多數(shù)據(jù)改進 FSD 表現(xiàn)。雖然 Optimus 機器人距離大規(guī)模商業(yè)化還很遠,但如果用 Optimus 替代 Tesla 工廠工人、提升人效也能極大程度改善利潤,參考 ARK 對 Tesla 的建模,如果在未來 5 年實現(xiàn) Optimus 在 Tesla 工廠的部署,最大能節(jié)約 30-40 億美元成本。
目錄
01 自動駕駛和 AGI 很像
02 Tesla 也是一家機器人公司
03 小模型與“LLMs 公司”
04 AI 時代的教育
01.
自動駕駛和 AGI 很像
Sarah Guo:你怎么看今天自動駕駛的發(fā)展?還有多久我們會看到自動駕駛?cè)嫫占埃?/strong>
Andrej Karpathy:我在自動駕駛領(lǐng)域呆了 5 年,我覺得這個領(lǐng)域非常有趣。從現(xiàn)階段這個領(lǐng)域的發(fā)展情況來看,自動駕駛和 AGI 之間非常相似,也可能因為我對自動駕駛領(lǐng)域很熟悉,但我確實覺得我們在自動駕駛領(lǐng)域已經(jīng)快接近 AGI 了,比如現(xiàn)在已經(jīng)有成型的產(chǎn)品可以讓用戶付費使用,Waymo 就是一個很好的例子,Waymo 現(xiàn)在在舊金山很常見,很多人都體驗過,我自己就常常體驗 Waymo,它已經(jīng)成為了一個商業(yè)化的產(chǎn)品。
我第一次體驗 Waymo 差不多是 10 年前,當(dāng)時有一位朋友在 Waymo 工作,他帶我乘坐 Waymo 環(huán)繞了一整個街區(qū),10 年前從技術(shù)角度 Waymo 就已經(jīng)很好了,但從 demo 到成為大規(guī)模鋪設(shè)在城市中的產(chǎn)品這個過程經(jīng)歷了 10 年,當(dāng)然今天 Waymo 也還在持續(xù)擴張。
Elad Gil:從 demo 到成功的付費產(chǎn)品之間經(jīng)歷了 10 年,有多少程度是監(jiān)管的原因?你認為自動駕駛技術(shù)什么時候就已經(jīng) ready 了?
Andrej Karpathy:我認為自動駕駛其實在 10 年前就已經(jīng)達到相當(dāng)成熟的水平,但 30 分鐘的 demo 并不能完全展示他們過去 10 年所面臨的所有挑戰(zhàn),demo 與實際產(chǎn)品之間有很大差距,當(dāng)然這里面會有部分監(jiān)管的原因。
但我認為,我們已經(jīng)一定程度上已經(jīng)在自動駕駛領(lǐng)域達成了 AGI。與此同時,demo 和在全球范圍內(nèi)得到推廣之間也存在著很大差距。雖然 Waymo 已經(jīng)可以在舊金山運行,但從在全球市場普及角度,還沒有產(chǎn)生很實質(zhì)性的影響和結(jié)果。這也是我認為 AGI 和自動駕駛相似的地方。
回到自動駕駛領(lǐng)域,許多人認為 Waymo 在技術(shù)上領(lǐng)先于 Tesla,但我個人認為 Tesla 實際上要比 Waymo 走得更前,這個觀點可能和目前的主流聲音不太一樣,但我對 Tesla 的自動駕駛確實很有信心。
Tesla 面臨的是軟件層面的問題,Waymo 的挑戰(zhàn)來自于硬件,相比較來說,軟件問題的解決要更容易。Tesla 已經(jīng)在全球范圍內(nèi)大規(guī)模部署了車輛,而 Waymo 還沒有達到這樣的規(guī)模。因此,我相信一旦 Tesla 的系統(tǒng)能夠真正大規(guī)模落地并高效運轉(zhuǎn)起來,效果會很驚人。昨天我剛試駕了 FSD 的最新版本,駕駛體驗非常流暢。Tesla 自動駕駛系統(tǒng)的一系列操作,讓我覺得 Tesla 今天自動駕駛上已經(jīng)取得了相當(dāng)不錯的結(jié)果。
整體上,我覺得 Tesla 的自動駕駛最大的挑戰(zhàn)在于軟件角度,Waymo 的挑戰(zhàn)則更多來自硬件。從今天的情況看,Waymo 似乎處于優(yōu)勢位置,但我相信,如果從 10 年的長度來看,Tesla 會在規(guī);褪杖肽J缴细I(lǐng)先。
Elad Gil:你認為解決軟件問題需要多長時間?你剛剛提到 Waymo 的車輛上有很多昂貴的激光雷達和傳感器,這些硬件給軟件系統(tǒng)提供了支持,如果像 Tesla 一樣,僅僅只是依賴攝像頭系統(tǒng),不僅能夠顯著降低成本,還能減少系統(tǒng)的復(fù)雜性,并且適用于更多車型。這種轉(zhuǎn)變大概什么時候能夠?qū)崿F(xiàn)?
Andrej Karpathy: 我個人希望未來幾年內(nèi)就能解決。其實 Tesla 在訓(xùn)練階段也使用了很多昂貴的傳感器,還做了很多沒辦法大規(guī)模推廣的技術(shù),比如無線傳感器信任模型研究和地圖測繪等。而在測試階段,Tesla 將這些數(shù)據(jù)精簡成一個只依賴視覺系統(tǒng)的測試包,部署到量產(chǎn)車上。很多人可能并沒有意識到,這其實是一種很精明的傳感器與成本之間的“套利”。因為攝像頭能夠捕捉到足夠的信息,神經(jīng)網(wǎng)絡(luò)也有能力處理這些信息。在訓(xùn)練階段,這些傳感器非常有用,但在測試階段,它們的作用并不那么重要。所以,我認為只依賴攝像頭已經(jīng)足夠。
Elad Gil: 自動駕駛領(lǐng)域最近出現(xiàn)的一個趨勢是,開始從基于邊緣案例設(shè)計的啟發(fā)式算法逐漸轉(zhuǎn)向端到端的深度學(xué)習(xí),背后的原因和邏輯是什么?
Andrej Karpathy:端對端其實就是我們一開始想要做的。我剛加入 Tesla 時,我們就討論過,神經(jīng)網(wǎng)絡(luò)最終一定會替代整個技術(shù)棧。當(dāng)時系統(tǒng)中有大量的 C++ 代碼,但今天測試包中運行的 C++ 代碼已經(jīng)很少了。神經(jīng)網(wǎng)絡(luò)逐步取而代之,一開始神經(jīng)網(wǎng)絡(luò)只是用在圖像識別處理上,后面又擴展到處理多幀圖像并生成預(yù)測結(jié)果,隨著時間推移,C++ 代碼逐漸被替代。最終,系統(tǒng)只需要給出駕駛指令,神經(jīng)網(wǎng)絡(luò)就能輸出結(jié)果。
所以 Tesla 在做的就是端對端的 AI 駕駛,但 Waymo 應(yīng)該是沒有選擇這個技術(shù)路線的。雖然他們有過嘗試,但效果不太理想。
我個人很相信端對端的路線才是正確的,是未來發(fā)展的必然方向。如果從這個角度看,十年后的 Tesla 系統(tǒng)很有可能會發(fā)展成一個端到端的神經(jīng)網(wǎng)絡(luò),視頻流輸入后直接輸出駕駛指令。當(dāng)然,這個過程需要逐步完善系統(tǒng)的各個模塊。我并不認為當(dāng)前所有的中間預(yù)測(intermediate predictions)會對開發(fā)進程產(chǎn)生誤導(dǎo),恰恰相反,它們是系統(tǒng)的重要組成部分。因為在訓(xùn)練一個完全端到端的神經(jīng)網(wǎng)絡(luò)時,模擬人類駕駛的監(jiān)督信號十分有限,無法支撐如此龐大的網(wǎng)絡(luò)進行訓(xùn)練。中間預(yù)測則能幫助開發(fā)出特征和檢測器,從而使得端到端的問題變得更加可行。因此,我猜測他們在進行大量的預(yù)訓(xùn)練,以便未來實現(xiàn)端到端的微調(diào)。
總的來說,我認為神經(jīng)網(wǎng)絡(luò)取代整個技術(shù)棧的過程是必要的,但過程需要循序漸進。Tesla 目前的嘗試已經(jīng)展現(xiàn)了初步成效,讓人對未來充滿期待。
中間預(yù)測(Intermediate Predictions):在模型訓(xùn)練或推理過程中,生成的非最終結(jié)果或輸出。這些預(yù)測在多步計算過程中作為中間步驟,幫助模型逐步逼近最終結(jié)果。它們在復(fù)雜任務(wù)中非常有用,比如分層決策、機器翻譯或多任務(wù)學(xué)習(xí),可以通過評估這些中間結(jié)果來優(yōu)化模型性能,糾正偏差或提高模型的訓(xùn)練效果。此外,中間預(yù)測還幫助解釋模型的內(nèi)部工作機制,并可能為模型調(diào)優(yōu)提供參考。
02.
Tesla 也是一家機器人公司
Sarah Guo: 離開 Tesla 之前,你也參與過 Tesla 的人形機器人項目。從自動駕駛到機器人,有哪些技術(shù)是可以遷移的?
Andrej Karpathy: 基本上所有技術(shù)都可以遷移。但我覺得大家可能還沒有意識到這一點。機器人和汽車本質(zhì)上并沒有太大的差別。我覺得把 Tesla 簡單理解為一家汽車公司其實是對它的誤解。
Tesla 其實是一家大型的機器人公司,它不僅僅是在生產(chǎn)汽車,而是在制造自動化的機器。大規(guī)模生產(chǎn)是一個很不一樣的領(lǐng)域,我認為 Tesla 是一家專注于大規(guī)模機器人技術(shù)的公司。
從汽車技術(shù)遷移到類人機器人技術(shù),其實并不需要太多的額外工作。事實上,早期的 Optimus 機器人甚至還認為自己是一輛車,因為它使用了與汽車完全相同的計算機和攝像頭。有趣的是,我們在機器人上運行的是為汽車設(shè)計的神經(jīng)網(wǎng)絡(luò),而機器人在辦公室里行走時,識別的“可駕駛空間”實際上成了“可行走空間”。雖然需要一些 fine tuning ,但這確實展示了技術(shù)的通用性。
Sarah Guo: 從某種角度來看,Tesla 確實可以被看作是一家機器人公司,很多核心技術(shù)是可以跨平臺遷移的。生產(chǎn)機器人所缺乏的關(guān)鍵部分,其實主要在于執(zhí)行機制和相關(guān)的行動數(shù)據(jù)。
Andrej Karpathy: 是的,雖然有些地方還不夠完善,但我想強調(diào)的是,很多技術(shù)是可以直接遷移的。比如 Optimus 項目的啟動速度相當(dāng)驚人,Elon Musk 宣布這個項目之后,相關(guān)的團隊和工具就已經(jīng)迅速到位了。像 CAD 模型、供應(yīng)鏈等資源都很快準備好了。當(dāng)時我會感覺 Tesla 內(nèi)部其實已經(jīng)具備了相當(dāng)豐富的機器人制造資源,這些都是從 Tesla 汽車那里拿過來的。這個感覺有點類似于《變形金剛》里面所展示的,車變形為機器人之后,所有的東西都一樣,只是需要對一些東西稍加調(diào)整、重新配置。除了硬件之外,整個思維方式、標注團隊、各個組件板塊之間的協(xié)調(diào)等都會變化。但總體上,有一部分經(jīng)驗和資源是可以遷移的。
Elad Gil:你認為人形機器人的第一個應(yīng)用場景會是什么?
Andrej Karpathy: 很多人會認為機器人可以幫助我們完成像洗衣服這樣的日常任務(wù)。但我認為這些技術(shù)的實際落地可能還需要很長時間。我并不認為直接面向消費者對于人形機器人來說是一個好的起點,因為我們目前還無法完全確保機器人在與老年人等人群互動時的安全性,比如避免“把老奶奶撞倒”這樣的意外,這類情況會帶來巨大的法律風(fēng)險,所以我覺得這個方向并不太合適。即使在很多簡單互動場景下,機器人也很可能會直接撞倒人。
但今天的技術(shù)還不夠成熟,需要進一步改進。因此,我認為對于機器人開發(fā)商來說,第一階段最好的客戶應(yīng)該機器人自己,如果機器人開發(fā)者們能夠意識到這一點的話,首先要做的就是應(yīng)該在內(nèi)部使用這些技術(shù)進行孵化,然后就可以在工廠中應(yīng)用,比如物料搬運(material handling)等領(lǐng)域,這樣就也不需要和第三方簽合同,避免了涉及律師和合同等繁瑣的過程。
通過內(nèi)部孵化并成功后,就可以進入 to B 市場,和一些有大型倉庫業(yè)務(wù)的企業(yè)合作,做物料搬運等任務(wù)。在這些合作中,機器人公司就可以搭建起市場的安全體系,在多個公司成功實踐后,再逐漸過渡到面向消費者的應(yīng)用領(lǐng)域。我相信我們未來會看到很多面向消費者開發(fā)的機器人,比如 Unitree 開發(fā)的產(chǎn)品就很值得期待,我自己會想買一臺 Unitree G1.
等到機器人在各個場景都有普及的時候,會有一個完整生態(tài),即大家會基于機器人平臺來開發(fā)各種類型的機器人。但從規(guī);慕嵌瓤矗艺J為逐步推進的路徑是最合理的。
最開始可能是處理一些物料搬運(material handling)相關(guān)的工作,接著逐步擴展到更為細分且需求量大的領(lǐng)域。我個人特別感興趣的一個項目是“吹葉機”。比如某一天我們可以看到 Optimus 機器人在街道上行走,輕輕地把每一片落葉拾起來,這樣我們就不需要再使用吹葉機了。我覺得這是一個非常棒的項目,希望這能成為早期應(yīng)用中的一個場景。
Sarah Guo: 在機器人形態(tài)上,有人認為人形機器人會是更好的選擇,因為今天物理世界的很多設(shè)計都是依照人類行為習(xí)慣展開的,所以基于人形機器人的統(tǒng)一硬件形態(tài)開發(fā)模型就能完成越來越多的任務(wù),另外一種觀點認為,人形機器人并不一定是通用機器人的唯一答案。你怎么看這個問題?
Andrej Karpathy: 我覺得很多人其實都低估了不同機器人平臺的固定成本的復(fù)雜性,每種機器人平臺都要求很高的 fixed cost,因此通用機器人的路線就會更合理一些,我們基于一個統(tǒng)一的平臺來做各種嘗試。
所以我會認為人形機器人其實具有很大潛力,人類可以輕松地對它進行遠程操控,從而去幫助收集數(shù)據(jù)。同時,就像你剛剛提到的視角之一,整個世界都是圍繞人類行為習(xí)慣展開的,這是為什么人形機器人會很重要的另外一個原因。
當(dāng)然,在未來可能圍繞人形機器人還會有各種形態(tài)的變化,但對于任何一種新的機器人平臺來說,fixed cost 都是需要去考慮的重要問題。
我還想強調(diào)的是,通過不同任務(wù)之間的信息共享和互相學(xué)習(xí),你將能獲得更多收益。
在 AI 領(lǐng)域,我們想要構(gòu)建一個能夠處理多任務(wù)的神經(jīng)網(wǎng)絡(luò),通過多種任務(wù)相互學(xué)習(xí)進而提升整體的智能水平。語言模型的有趣之處在于它們作為處理文本的多任務(wù)模型,能夠處理多種不同類型的問題,同時還能在這些任務(wù)之間共享信息。但所有這些任務(wù)其實都是通過一個單一的神經(jīng)網(wǎng)絡(luò)進行的。
同樣,我們希望拾葉子任務(wù)中收集到的數(shù)據(jù)能夠幫助你完成其他任務(wù),但如果專門為某個特定任務(wù)開發(fā)一個系統(tǒng),那么你的獲利范圍可能就會變窄。
Sarah Guo:像 Unitree G1 這樣的機器人目前售價在 30 萬美元左右,就目前看來人形機器人領(lǐng)域?qū)崿F(xiàn)低成本、高功能的平衡很難,但如果我們采用輪式結(jié)構(gòu),并在其基礎(chǔ)上增加機械臂來完成特定任務(wù),是不是更有機會能實現(xiàn)一種更具性價比的通用形態(tài)的機器人?
Unitree G1機器人
Andrej Karpathy:從硬件角度尋找更便宜的通用平臺是合理的。某些環(huán)境下,用輪子等其他結(jié)構(gòu)代替雙腳來完成任務(wù)可能是個更高效的選擇,但我覺得這可能是在追求一種局部最優(yōu)解。從長遠來看,我認為選擇一種形態(tài)并將其打磨到完美可能是更明智的做法。并且從人類心理層面來說,類人形態(tài)的機器人優(yōu)勢會更明顯,它讓人感到熟悉從而想要與它進行互動。
當(dāng)然,考慮到恐怖谷效應(yīng),也許抽象的形態(tài)會更受用戶歡迎。因為其實我也不確定人們對不同形態(tài)的機器人會給出什么樣的反應(yīng),如果我們最后用一個八輪怪物來完成工作,我不確定人們會喜歡它還是會更害怕。
Elad Gil:機械狗也是一種形態(tài)路線,并且狗也屬于人類更熟悉的形態(tài)。
Andrej Karpathy:是的,不過很多看過《黑鏡》的人可能會把機械狗與某些恐怖場景結(jié)合在一起,所以每個人的心理接受度也會不同,相比之下類人形態(tài)可能更容易讓人接受,也可以讓人更容易理解它的功能和行為。
Elad Gil:如果要實現(xiàn)類人形態(tài),從技術(shù)角度,還要實現(xiàn)哪些關(guān)鍵進展?
Andrej Karpathy: 我認為這個問題目前還沒有很明確的答案。這里面有一個比較有趣的討論是,在人形機器人的設(shè)計中,下肢部分(the lower body)不太適合使用模仿學(xué)習(xí)來實現(xiàn),這部分更多涉及到倒立擺控制(inverted pendulum control),對于上半身(the upper body),則更多依賴遠程操控、數(shù)據(jù)采集以及端到端學(xué)習(xí)等方式。從某種意義上講,機器人系統(tǒng)需要將多種技術(shù)結(jié)合在一起,但我目前還不太確定這些系統(tǒng)之間是如何起作用的。
倒立擺(Inverted Pendulum):涉及到使一個擺保持在不穩(wěn)定的直立位置,作為一種經(jīng)典的控制問題在機器人學(xué)、航空航天等領(lǐng)域有著廣泛的應(yīng)用。傳統(tǒng)的倒立擺控制方法有 PID 控制、線性二次調(diào)節(jié)器(LQR)、滑?刂频。
隨著 AI 的發(fā)展,強化學(xué)習(xí)的方法逐漸被引入到倒立擺的控制中,RL 路徑下,因其具備無需精確模型即可學(xué)習(xí)最優(yōu)策略的能力而備受關(guān)注。基于強化學(xué)習(xí)的倒立擺平衡控制算法是一種非常實用的技術(shù),在機器人學(xué)、自動化等領(lǐng)域有著廣泛的應(yīng)用。
Elad Gil:在和一些機器人領(lǐng)域的人交流時,我發(fā)現(xiàn)他們很關(guān)心動力驅(qū)動、操控以及數(shù)字操控(digital manipulation)等問題。
Andrej Karpathy:是的,我覺得在初期階段,確實會有很多遠程操控的場景,比如讓機器人模仿人類從地上拾取物品,直到系統(tǒng)有 95% 的時間可以自主運行。然后逐步增加機器人的工作比例,讓人類從操作員變成監(jiān)督員。
其實我認為技術(shù)上并沒有什么特別的障礙,更多是需要做大量基礎(chǔ)性的工作。我們已經(jīng)有了合適的工具和資源,比如 Transformer 架構(gòu),這樣的技術(shù)就像優(yōu)秀的“協(xié)調(diào)者”,我們只需準備好正確的數(shù)據(jù),經(jīng)過訓(xùn)練和實驗,最終實現(xiàn)部署。雖然過程繁雜,但其實并沒有特別多本質(zhì)上的技術(shù)瓶頸。
03.
合成數(shù)據(jù)、小模型、LLMs 公司
Sarah Guo:你覺得在 Large Blobs 研究上,我們走到什么階段了?
Large blobs research :通常指的是在深度學(xué)習(xí)和計算機視覺領(lǐng)域中的一種研究方向或技術(shù)。Blob 是 “Binary Large Object”的縮寫,即“二進制大對象”,是圖像或特征圖中的大塊連續(xù)區(qū)域,這些區(qū)域可能包含重要的視覺信息或表示特定的對象或場景部分。研究這些大塊區(qū)域有助于提高模型對大尺度視覺特征的理解和處理能力。
Andrej Karpathy: 我覺得我們現(xiàn)在正處于一個快速發(fā)展的階段。Transformer 并不只是一個神經(jīng)網(wǎng)絡(luò),而是一種功能強大且通用的神經(jīng)網(wǎng)絡(luò)。
舉個例子,當(dāng)大家討論 scaling law 時,其實很多時候指的是 Transformer 架構(gòu)的特性。在 Transformer 之前,人們主要用堆疊 LSTM 來做一些工作,但并沒有發(fā)現(xiàn)明確的 scaling law。Transformer 是第一個讓這件事變得很清晰、并且可以有效擴展的模型。
堆疊LSTM(Stacked LSTM)是指將多個LSTM(Long Short-Term Memory)層疊加在一起形成的深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
Transformer 像一個通用計算機,更確切來說是一臺可微分神經(jīng)計算機(Differentiable Neural Computer,DNC)。我們可以讓它做超大規(guī)模的輸入和輸出,并通過反向傳播法對這個計算機進行訓(xùn)練,最終,它會成為一個可以自我進化的一個任務(wù)完成系統(tǒng)。
可微分神經(jīng)計算機(DNC):一種特殊的神經(jīng)網(wǎng)絡(luò),能夠存儲和檢索信息,類似于計算機中的內(nèi)存系統(tǒng)。它是“可微”的,意味著可以通過反向傳播優(yōu)化它的參數(shù),使其在解決復(fù)雜任務(wù)時表現(xiàn)更好。
Transformer 雖然是我們在算法領(lǐng)域偶然發(fā)現(xiàn)的一個奇跡,但它背后確實有很多個關(guān)鍵創(chuàng)新,比如殘差連接(residual connections)、層歸一化(layer normalizations)和注意力機制(attention block)。和傳統(tǒng)方法不同,Transformer 沒有使用那些會導(dǎo)致梯度消失的非線性激活函數(shù),而是像它們的技術(shù)論文里提到的進行了創(chuàng)新技術(shù)的融合,極大的提高了訓(xùn)練效率和性能。
Sarah Guo:這段時間一直有關(guān)于數(shù)據(jù)墻(data wall)的討論,以及下一代模型再 scale up 的話成本會特別高。你怎么看數(shù)據(jù)的問題?
Andrej Karpathy: 這也是我們一開始就討論的。我覺得今天神經(jīng)網(wǎng)絡(luò)的架構(gòu)本身已經(jīng)不再是瓶頸了,雖然在 Transformer 誕生之前,架構(gòu)問題確實是一個阻礙,現(xiàn)在新的瓶頸主要集中在損失函數(shù)和數(shù)據(jù)集上,所以很多公司和研究者不再專注 Transformer 架構(gòu)的變化,比如 LlaMA 也沒有特別明顯的架構(gòu)創(chuàng)新。唯一比較大的變化可能是“旋轉(zhuǎn)位置編碼”(RoPE positional encodings)。過去五年 Transformer 本身并沒有太多變化,大家只是在現(xiàn)有基礎(chǔ)上專注于訓(xùn)練、數(shù)據(jù)集和損失函數(shù)的創(chuàng)新。
“旋轉(zhuǎn)位置編碼”(RoPE,Rotary Positional Encodings):一種用于 transformer 模型的位置編碼技術(shù)。它通過旋轉(zhuǎn)向量的方式來表示輸入序列中的位置信息,與傳統(tǒng)的位置編碼相比,RoPE 可以使模型在處理長序列時更具優(yōu)勢。其關(guān)鍵特點是通過旋轉(zhuǎn)向量的角度來編碼序列中每個元素的位置,同時保持相對距離的信息。這種方法允許模型在不同位置上具有更好的靈活性和擴展性,尤其適合處理長距離依賴關(guān)系的任務(wù)。
Sarah Guo:當(dāng)互聯(lián)網(wǎng)上數(shù)據(jù)不夠用時,我們就要開始用合成數(shù)據(jù),或者類似的更貴的數(shù)據(jù)收集方式嗎?
Andrej Karpathy: 目前很多研究都集中在語言模型上。雖然互聯(lián)網(wǎng)數(shù)據(jù)并不是 Transformer 最理想的數(shù)據(jù)來源,但它們可以作為一種工具,不斷去提升模型能力。互聯(lián)網(wǎng)數(shù)據(jù)只是大量網(wǎng)頁的集合,但真正有價值的是我們大腦中的“內(nèi)部獨白(inner monologue)”那些復(fù)雜、深層次的思維軌跡。
如果我們能擁有億萬條類似“思維軌跡”的數(shù)據(jù),那么就可能在某種程度上接近 AGI。但目前這些數(shù)據(jù)并不存在,所以現(xiàn)在的研究主要集中在將現(xiàn)有數(shù)據(jù)集重組,形成類似“內(nèi)部獨白(inner monologue)”的格式,這就是合成數(shù)據(jù)的重要性。今天的模型可以幫助我們生成下一代模型,這是一個不斷迭代進步的過程,就像在爬階梯,一步步接近目標。
Elad Gil:合成數(shù)據(jù)的作用到底有多大?就像你說的,每個模型都能幫助我們?nèi)ビ?xùn)練下一個模型,或者至少能為數(shù)據(jù)標注等任務(wù)提供工具,其中一部分可能就是合成數(shù)據(jù)。
Andrej Karpathy:我覺得對于模型能力提升上,合成數(shù)據(jù)是必不可少的,但在使用合成數(shù)據(jù)時要很小心,因為模型不知道什么時候就“崩塌”了。比如,當(dāng)我們讓 ChatGPT 給我們講笑話時,如果多試幾次我們會意識到它可能只知道 3 個笑話,雖然表面上看它懂很多,但其實它只知道那幾個,這就是“崩塌”,即單次輸出沒問題,但如果在這個特定方向的輸出上,模型的多樣性和靈活性大大降低,這就是生成數(shù)據(jù)時的問題,尤其在生成合成數(shù)據(jù)時很容易出現(xiàn)“崩塌”的情況,因為我們那實際上很需要數(shù)據(jù)的多樣性和豐富性,也就是“熵”,以免數(shù)據(jù)集過于單一而出現(xiàn)問題。
模式坍塌(Mode Collapse):這是生成對抗網(wǎng)絡(luò)(GANs)中的一個現(xiàn)象,指的是生成模型開始生成非常相似或重復(fù)的樣本,而不是多樣化的樣本。這通常被視為一個問題,因為它表明模型沒有能夠?qū)W習(xí)到數(shù)據(jù)的豐富多樣性。
舉個例子,有人發(fā)布了一個包含 10 億條虛構(gòu)人物背景組成的人物形象相關(guān)數(shù)據(jù)集,比如“我是老師”或“我是藝術(shù)家,我住在這里,我從事這個工作”等。在生成合成數(shù)據(jù)時,其實是讓它想象與特定人物互動的過程,這能給模型更多的探索空間,從而輸出更多的信息,增加數(shù)據(jù)集的多樣性。因此,我們需要小心地注入熵的同時保持數(shù)據(jù)分布的穩(wěn)定性,這就是生成合成數(shù)據(jù)最大的挑戰(zhàn)。
Sarah Guo:你覺得我們可以從這個研究中學(xué)到哪些和人類認知有關(guān)的東西?比如有人認為,理解思維軌跡的形成過程有利于我們?nèi)ダ斫獯竽X是如何運作的。
Andrej Karpathy:研究模型和人類認知是兩件完全不同的事情,但在某些情況下還是可以類比的。比如,我認為 Transformer 在某些方面比人腦更強的,模型是比人腦更高效的系統(tǒng),但因為數(shù)據(jù)限制,它們目前的表現(xiàn)還不如人類大腦。不過這只是一個粗略的解釋。
比如就記憶能力而言,Transformers 在處理長序列時的表現(xiàn)要比人腦更出色。如果你給它一個序列,讓它執(zhí)行一次前向和后向計算,它能記住序列的前后部分并完成任務(wù),而人類記憶則很難做到這點。因此,在某些方面我認為基于梯度優(yōu)化的訓(xùn)練方式確實比人腦更高效,甚至未來在某些認知層面上,模型可能真的會超越人類。
Elad Gil:記憶能力是計算機的優(yōu)勢之一。
Andrej Karpathy:是的,我認為人腦其實有很多限制,比如工作記憶(working memory)的容量非常有限,而 Transformers 的工作記憶相比之下則大得多,并且他們之間的差距還在不斷擴大。此外,Transformers 的學(xué)習(xí)效率也更高。人腦的運行會被很多隱性因素所限制,比如背景、責(zé)任、環(huán)境等等,這使得人腦系統(tǒng)更加隨機且受限。所以,我覺得其實在某些方面這些模型已經(jīng)比人腦更強了,只是還沒發(fā)揮出全部潛力。
Elad Gil:在人和 AI 的關(guān)系上,一種論調(diào)是說我們把它當(dāng)作外部工具來使用,也有人說人類和 AI 模型會有更深層次的融合。你怎么看這個問題?
Andrej Karpathy:我覺得我們已經(jīng)在某種程度上實現(xiàn)了人類和 AI 的融合,技術(shù)工具一直是人類能力的衍生,就像人們常說的,“電腦是人類大腦的自行車”。只不過今天模型的問題在于信息輸入輸出過程中的瓶頸,所以人類與 AI 的融合還需要進行不斷的嘗試。不過在模型已經(jīng)完善的情況下,使用這些模型是很簡單的,只需要簡單的動幾下手就可以實現(xiàn)。所以,雖然存在一些障礙,但現(xiàn)階段的技術(shù)已經(jīng)讓這種融合變得相對容易和可行。
Elad Gil:AI 領(lǐng)域的一些人認為,如果未來我們與 AI 之間發(fā)生沖突,是可以
通過某種人類與 AI 融合的形式來解決的。
Andrej Karpathy: 是的,這與 Neuralink 的理念很相似。雖然我不確定這種融合的具體形式,但可以肯定的是,我們希望減少人與工具之間輸入輸出的延遲。可以把它想象成,在我們的大腦皮層上增加一個新的皮層,這個新皮層或許是基于云的,本質(zhì)上相當(dāng)于大腦的下一層。
Elad Gil: 在 Accelerando 這本書中確實有類似的設(shè)定,所有事物都通過一種可佩戴智能眼鏡傳遞給大腦。如果失去了這些眼鏡,就仿佛失去了一部分人格或記憶。
Andrej Karpathy:我覺得這種情況很可能發(fā)生,F(xiàn)在的手機幾乎已經(jīng)成了我們生活的一部分,像大腦的外接設(shè)備一樣。每次我們把手機放下時,就感覺回到了原始狀態(tài)。
再比如如果我們有一個“通用翻譯器(Universal Translator)”并長期依賴于它,那么當(dāng)我們一下子沒有它的時候,可能就會失去和說不同語言的人直接交流的能力。就像有個視頻里面呈現(xiàn)的,一個小孩拿著雜志想用手指滑動,他根本分不清什么是天然的、什么是技術(shù)帶來的。這讓我覺得,隨著技術(shù)變得越來越無處不在,人們可能會逐漸依賴這些工具,直到它們消失時才意識到自己無法分辨什么是技術(shù),什么不是。特別是像翻譯器這樣始終幫你執(zhí)行任務(wù)的設(shè)備,會大大降低人們對技術(shù)和自然界限的敏感度。
Sarah Guo: “外皮層”(exocortex)聽起來是個很重要的東西,對于每個人都很重要。今天 LLM 研究是由少數(shù)幾個 AI Labs 主導(dǎo)的,只有他們有資源推動下一代模型訓(xùn)練的發(fā)展。你怎么看今天 LLM 研究中的這種結(jié)構(gòu)?它會對未來 AI 技術(shù)的普及帶來哪些影響?
Andrej Karpathy:LLM 的生態(tài)系統(tǒng)今天確實是被幾個封閉平臺壟斷的,排名靠后的 Meta LlaMa 則相對開放,這個現(xiàn)象在某種程度上也是開源生態(tài)系統(tǒng)的映射。當(dāng)我們 LLM 看作“外皮層”時,就會涉及到信息和數(shù)據(jù)私密性的問題。加密領(lǐng)域有句話是“not your keys,not your tokens”,可能在 LLM 領(lǐng)域未來我們會去強調(diào)“ not your weights, not your brain”。如果 AI 是未來每個人新的大腦皮層,如果這個皮層被某個公司掌控,人們會覺得是在“租用”一個大腦,而不是真正擁有它。
Sarah Guo: 你愿意放棄對自己大腦的所有權(quán)和控制權(quán),去租用一個更強大的大腦嗎?
Andrej Karpathy:我認為這是一個很關(guān)鍵的 trade-off,未來的趨勢可能是,大多數(shù)人會把功能強大的閉源模型作為默認選項,但在一些特定情況下,開源系統(tǒng)會成為備選方案。就像現(xiàn)在一樣,當(dāng)一些閉源模型提供商的 API 出現(xiàn)問題時,人們轉(zhuǎn)向開源生態(tài),也因此感受到更多的掌控感。
這或許也會是未來大腦技術(shù)發(fā)展的方向:當(dāng)問題出現(xiàn)時,我們可以切換到開源系統(tǒng),而在大部分情況下,我們?nèi)砸蕾嚪忾]系統(tǒng)。保持開源系統(tǒng)的發(fā)展是很重要的,但今天可能并不是所有人都意識到這個問題。
Elad Gil:你怎么看小模型?今天小模型的性能能到什么水平?
Andrej Karpathy:我認為模型的規(guī)模還可以縮得更校因為數(shù)據(jù)集的問題,我們覺得現(xiàn)在的模型在存儲一些無關(guān)緊要的信息上浪費了很多容量,小模型的關(guān)鍵是要聚焦在核心認知,而這個核心其實可以非常校它更像是一種思維方式,當(dāng)我們需要查找信息時,能靈活運用各種工具來獲取,而不是讓模型存儲大量不必要的細節(jié)。
從參數(shù)上,我認為可能只需要 1 億個參數(shù)就能達到我們的目標。高效的壓縮技術(shù)可以讓模型變得非常小,壓縮的原理很簡單:用一個非常大的模型或大量計算資源來 supervise 一個更小的模型,這個過程就可以把很多能力塞到小模型里。
這件事的本質(zhì)是,今天大模型處理的是互聯(lián)網(wǎng)數(shù)據(jù)集,而其中只有大約 0.001% 的內(nèi)容與認知相關(guān),其余 99.99% 實際上是一些無關(guān)緊要的信息,比如 Copy right 這種文本。大部分信息并沒有對思維模式的提升起到實質(zhì)作用。
Elad Gil:這個過程可以被數(shù)學(xué)或者某種信息學(xué)理論解釋嗎?模型規(guī)模和認知能力之間的關(guān)系是可以被量化的嗎?比如可能未來只需要一個 10 億參數(shù)模型就能有不錯的認知了。
Andrej Karpathy:甚至可能用不到 10 億,模型就可以有這種認知能力,考慮到模型成本、端側(cè)設(shè)備等。而且在我們要討論的可能不是一個單個認知模型,我認為模型應(yīng)該具備并行處理的能力,而不只是依賴順序處理。這就像公司運作一樣,很多工作可以并行完成,但也需要層級結(jié)構(gòu)來更好地處理信息。因此,我認為未來可能會出現(xiàn)“LLM 公司(companies for LLMs)”的模式:不同的模型專注各自的領(lǐng)域,比如一個是程序員模型,另一個是項目經(jīng)理模型,大家一起并行處理很多工作,彼此之間也可以協(xié)同合作,形成一個由 LLMs 構(gòu)成的“群體大腦”。
Elad Gil:這個 LLMs 集群像是一個生態(tài)系統(tǒng),其中每一部分都有自己獨特的專長和位置。
Andrej Karpathy: 我覺得未來一定會朝這個方向發(fā)展,云端模型是最智能的,可以看作是 CEO,還有很多更便宜的、開源模型是這個群體中的員工,但系統(tǒng)遇到很復(fù)雜的問題時,就會自動把任務(wù)升級并分配給群體的其他部分。
04.
AI 時代的教育
Sarah Guo:你從 OpenAI 離開之后開始做自己的教育項目,為什么選擇教育?
Andrej Karpathy:我一直熱愛教育行業(yè),喜歡學(xué)習(xí)、也喜歡教學(xué),對這個領(lǐng)域很有熱情。
Karpathy 創(chuàng)立了 Eureka Labs,這是一個以 AI 為核心的教育平臺,旨在通過人工智能技術(shù)革新學(xué)習(xí)方式。Eureka Labs 的第一門課程LLM101n將指導(dǎo)學(xué)生構(gòu)建自己的大型語言模型,目的是讓 AI 教育變得更加互動且普及。這個平臺計劃通過整合 AI 教學(xué)助手和人工課程設(shè)計來增強學(xué)習(xí)體驗,反映了他多年來致力于將 AI 與教育相結(jié)合的愿景。
推動我進入這個領(lǐng)域的一個重要原因是,我覺得現(xiàn)在很多 AI 都是在嘗試取代人類,導(dǎo)致很多人失業(yè),但我更感興趣的是那些能夠增強人類能力的技術(shù)?傮w而言,我站在人類這一邊,希望 AI 能幫助人類變得更強大,而不是被邊緣化。
另外,我認為有一個可以實現(xiàn)所有學(xué)科輔導(dǎo)任務(wù)的 “Perfect Tutor”是一個相當(dāng)不錯的想法,如果每個人都有這樣一個 AI 導(dǎo)師來指導(dǎo)他們學(xué)習(xí)所有學(xué)科,我相信每個人能取得更大成就。
Elad Gil: 從 80 年代開始,就有文獻明確指出一對一輔導(dǎo)能夠使個人的水平提高 2 個標準差,圍繞個性化 tutor 也有很多案例,你認為要怎么把 AI 和 tutor 結(jié)合起來?
Andrej Karpathy: 我的確也從這些例子中得到了很多啟發(fā)。現(xiàn)在我正在構(gòu)建一個完整的課程,目標是讓它成為人們學(xué)習(xí) AI 時的首選,我之前教授了斯坦福的第一門深度學(xué)習(xí)課程,雖然學(xué)生人數(shù)只有 20 到 30 人,但效果不錯,F(xiàn)在的挑戰(zhàn)是如何將這種課程規(guī);采w全球 80 億人,考慮到語言和能力的差異,這很難靠一個老師實現(xiàn)。
因此,關(guān)鍵是如何利用 AI 來擴展優(yōu)秀教師的作用。教師的核心任務(wù)應(yīng)該是課程設(shè)計和編寫材料,而 AI 則可以在前端與學(xué)生互動,傳授內(nèi)容。目前的 AI 還不能獨立創(chuàng)建完整課程,但已經(jīng)足夠能幫助解釋和傳遞知識。通過這種方式,教師可以專注于后端設(shè)計,AI 則在前端使用多種語言與學(xué)生互動,幫助他們完成學(xué)習(xí)。
Sarah Guo:可以把 AI 比做助教嗎?
Andrej Karpathy:助教是我考慮的方向之一,我把它看作一個前端,直接和學(xué)生互動,帶領(lǐng)他們完成課程,我認為這是當(dāng)前技術(shù)下的可行方案,而且市面上還沒有類似的產(chǎn)品,所以我覺得這個領(lǐng)域有很大的潛力,并且隨著技術(shù)進步,我們還可以對它做各種各樣的調(diào)整。我覺得今天很多公司對模型能力的理解并不足夠直觀,也因此,它們開發(fā)的產(chǎn)品過于超前或者還不夠準確。所以我覺得這個領(lǐng)域的潛力很大。
Sarah Guo: 有了好的工具之后人類能力極限可以到什么程度?比如,如果類比奧運會的話,因為過去 10 年訓(xùn)練科學(xué)和技術(shù)的進步,頂級跑者的表現(xiàn)也比 10 年要更好。
Andrej Karpathy: 我覺得我們今天還沒觸碰到潛力的最大可能。我們可以從兩個角度來想這個問題,首先是全球化,我希望每個人都能接受到高水平的教育,其次是個體的能力極限。這兩個角度都很有價值。
Elad Gil: 通常我們討論 1 對 1 學(xué)習(xí)指導(dǎo)的時候,都會提到個性化、自適應(yīng),即根據(jù)每個人的水平來給到相應(yīng)的學(xué)習(xí)挑戰(zhàn)任務(wù),你覺得 AI 今天可以做到這一點了嗎?
Andrej Karpathy:我覺得今天 AI 教育領(lǐng)域的“低垂果實”還是翻譯這些應(yīng)用,現(xiàn)階段的模型很擅長這類任務(wù),能做的事情還是基礎(chǔ)的任務(wù)。
要做到適應(yīng)每個人水平的個性化很難,但也并不是做不到,我覺得這也應(yīng)該是 AI 要去重點發(fā)展的方向,它也明顯有潛力做到這點。但這個可能就會涉及到新的領(lǐng)域,可能比較簡單的模式是通過 prompt 工程來實現(xiàn),但我覺得真正有用的方式還是要讓模型本身就有這樣的能力,它可以像老師一樣在工作。
我認為這確實涉及到一些目前尚未充分發(fā)展的領(lǐng)域。雖然簡單的版本可能不遠了,比如通過給模型提示就能得到一些幫助,但我說的是真正有效的解決方案,而不是僅僅在 demo 里看起來不錯。我說的是它能像真正的老師一樣高效工作,理解每個人的背景,提供個性化的指導(dǎo),這需要更進一步的發(fā)展。
Elad Gil: 我們是不是可以通過引入其他模型來實現(xiàn)這種自適應(yīng)?
Andrej Karpathy:我覺得這也是 AI 的一個特點。我覺得很多功能其實只需要一個 prompt 就能實現(xiàn)。所以我們經(jīng)?吹胶芏 demo,但最終能不能提要到一個實際的產(chǎn)品呢?所以可能作出一些 demo 并不難,但要發(fā)展成可以被大規(guī)模使用的產(chǎn)品還有很長的路要走。
Sarah Guo:幾周前你提到,學(xué)習(xí)和娛樂是不同的,學(xué)習(xí)應(yīng)該具備挑戰(zhàn)性,也需要一定的激勵系統(tǒng),比如社會地位、偶像效應(yīng)等。你覺得激勵系統(tǒng)能在多大程度上改變?nèi)藗兊膶W(xué)習(xí)動機?你更關(guān)注提供資源,讓人們在自己的能力范圍內(nèi)盡可能走得更遠?還是希望改變愿意學(xué)習(xí)的人數(shù)、引導(dǎo)更多人開始學(xué)習(xí)?
Andrej Karpathy:我希望讓學(xué)習(xí)變得更容易一些,畢竟有些人可能天生對學(xué)習(xí)不感興趣。很多人學(xué)習(xí)是出于實際需求,比如為了找到工作,這非常合理。在我們社會中,教育扮演著重要角色,因為它不僅能夠提供知識,還能提升一個人的經(jīng)濟地位,這就是人們愿意被教育激勵的原因。
Sarah Guo:在后 AGI 社會中,我們的未來將會是怎樣的呢?
Andrej Karpathy:在后 AGI 時代,我認為教育將更像一種娛樂。成功的教育不僅僅在于知識的傳遞,更在于深入理解和應(yīng)用這些知識。
Sarah Guo:Eureka 的第一批受眾是誰?
Andrej Karpathy:第一次課程的主要受眾是本科生,特別是那些在技術(shù)領(lǐng)域攻讀學(xué)位的人。如果你正在學(xué)習(xí)與技術(shù)相關(guān)的本科課程,那么你就是這一課程的理想目標群體。
Andrej Karpathy:我認為我們目前的教育觀念已經(jīng)有些過時了。過去的上學(xué)然后畢業(yè)一直工作在今天的變化下會被打破,技術(shù)迅速變化,人們需要不斷學(xué)習(xí)。所以雖然課程是面向本科生水平,但其實受眾很廣,比如我覺得任何年齡段的人都可以參與。特別是對于那些有技術(shù)背景、希望深入理解相關(guān)知識的人,都會有收獲。
我計劃在今年晚些時候開設(shè)課程,明年年初可能會是一個合適的時間點,在此之前我會努力確保課程的質(zhì)量達到預(yù)期標準。
Elad Gil:如果你有孩子,你會希望他們學(xué)習(xí)哪些知識和技能?
Andrej Karpathy:我會給出的答案是數(shù)學(xué)、物理、計算機科學(xué)等這些學(xué)科,這些學(xué)科實際上為思維能力的培養(yǎng)提供了非常核心的訓(xùn)練。當(dāng)然,這個觀點受到了我的背景影響,但我相信這些領(lǐng)域?qū)鉀Q問題的能力是非常有幫助的。即使在未來接近 AGI 的時代,這些技能仍然會發(fā)揮重要作用。在人們擁有大量時間和注意力的關(guān)鍵時期,我認為應(yīng)該主要集中在那些操作相對簡單的任務(wù)上,而不是需要大量記憶的任務(wù)上。雖然我也認可學(xué)習(xí)其他學(xué)科的重要性,但我認為 80% 的時間應(yīng)該專注于這些核心領(lǐng)域,因為它們更具實用性和長期價值。
排版:Fia