從預訓練轉(zhuǎn)向推理,人工智能領(lǐng)域正在經(jīng)歷的一個關(guān)鍵轉(zhuǎn)變,而這將顛覆AI投資邏輯。
近日, 在知名商業(yè)博客節(jié)目Invest Like The Best中,Patrick O'Shaughnessy對談了Benchmark普通合伙人Chetan Puttagunta和基金經(jīng)理Modest Proposal,就人工智能模型當前面臨的擴展挑戰(zhàn)、開源模型的驚人普及以及對一級和二級市場的投資影響等話題展開討論。
由于人類文本數(shù)據(jù)的耗盡,大模型訓練轉(zhuǎn)向使用由LLMs生成的合成數(shù)據(jù),但這未能使預訓練繼續(xù)擴展,導致AI大模型正在轉(zhuǎn)向一個新的范式從預訓練(pre-training)轉(zhuǎn)向測試時計算(test-time compute)。
Chetan介紹道,測試時計算實際上是讓大型語言模型審視問題,想出一系列可能的解決方案,并行推進多種解決方案,同時有一個叫做驗證器的東西,反復地對解決方案進行迭代處理。
從預訓練轉(zhuǎn)向推理,對AI究竟意味著什么?這在過去六到八周里,已經(jīng)改變了風投的投資邏輯。
從預訓練轉(zhuǎn)向推理,究竟意味著什么?
Chetan 強調(diào)了測試時推理范式的兩個關(guān)鍵挑戰(zhàn):首先,用于測試時計算的算法可能很快就會耗盡解決方案的有用搜索空間;其次,驗證器在區(qū)分好的和壞的解決方案以及尋找最優(yōu)路徑方面的能力,并不確定是否能隨著計算力的無限擴展而線性增長。此外,任務(wù)本身的復雜性和模糊性意味著限制因素可能不僅僅是計算力。
盡管存在這些挑戰(zhàn),Chetan 對通過算法、數(shù)據(jù)、硬件和優(yōu)化改進來解決這些問題持樂觀態(tài)度。
Modest從微觀層面分析了從預訓練轉(zhuǎn)向推理時間的幾個重大影響。其一,它能使收入生成與支出更好地協(xié)調(diào)一致:
我認為這對于整個行業(yè)來說是一個非常非常有益的結(jié)果,因為在預訓練領(lǐng)域,情況并非如此。將投入 200 億、300 億、400 億美元用于資本支出,在 9 到 12 個月內(nèi)訓練模型,進行訓練后的工作,然后將其推出,然后希望通過推理從中獲得收入。在測試時間計算擴展的世界里,你現(xiàn)在正在使你的支出與模型的底層使用情況相匹配。因此,就純粹的效率和財務(wù)方面的可擴展性而言,對于超大規(guī)模企業(yè)來說,這要好得多。
Modest認為第二個重大影響在于,但如果確實看到了向推理時間的轉(zhuǎn)變,在網(wǎng)絡(luò)架構(gòu)、芯片集群布局等方面,以及支撐投資世界很大一部分的諸多敘述,都需要進行重新思考:
需要開始思考如何重新設(shè)計網(wǎng)絡(luò)架構(gòu)?是否需要在能源低成本的陸地上建立數(shù)百萬個芯片超級集群,還是需要在全國范圍內(nèi)分散布局更小、更低延遲、更高效的推理時間數(shù)據(jù)中心?而且當你重新設(shè)計網(wǎng)絡(luò)架構(gòu)時,對電力利用率和電網(wǎng)設(shè)計的影響是什么?
我想說,支撐投資世界很大一部分的諸多敘述,我認為都得重新思考。而且我要說,由于這是一種相對較新的現(xiàn)象,如今公眾市場尚未開始著手應對這種潛在的新架構(gòu)是什么樣子,以及它可能會如何影響一些潛在的支出。
過去的六到八周里,小模型改變風投思維
Chetan和Modest都不確定預訓練是否會回歸,但當前的瓶頸意味著小型團隊有機會在特定領(lǐng)域展現(xiàn)創(chuàng)新。
Chetan觀察到,在過去的六到八周里,不斷有小型團隊(2-5人)涌出,他們正在以相對較少的資金開發(fā)新模型,并在性能上與前沿模型競爭,這是過去兩年中未曾見到的現(xiàn)象。
Chetan指出,開源模型,特別是Meta的LLaMA系列,使得小型團隊能夠快速追趕技術(shù)前沿,無需巨額投資。小型團隊能夠通過下載、部署和優(yōu)化開源模型,以較低成本迅速達到技術(shù)前沿。由于不需要大量的計算資源或數(shù)據(jù),小型團隊可以在特定領(lǐng)域快速展現(xiàn)創(chuàng)新能力,迅速達到技術(shù)前沿。一旦小型團隊達到技術(shù)前沿,他們可以與大型服務(wù)提供商(如AWS)建立合作關(guān)系。
在這一趨勢下,GPU的限制也減少了。與2022年相比,對于處于技術(shù)前沿的團隊來說,GPU資源的限制已不再那么嚴重,尤其是在測試時推理和計算方面。
這也帶來了風險投資的轉(zhuǎn)變,從一度回避資本密集型的大型模型訓練而專注于應用投資,轉(zhuǎn)向開始關(guān)注更靈活、資本效率更高的小型模型團隊創(chuàng)新。Chetan表示:
風險投資模式一直是能否組建一支非凡的團隊,實現(xiàn)技術(shù)突破,做到資本輕型化,迅速超越現(xiàn)有企業(yè),然后以某種方式獲得分銷立足點并推進。在過去兩年的模式層面,這似乎絕無可能實現(xiàn)。但在過去的六、八周里,這種情況確實發(fā)生了改變。
以下是部分對談要點和精華:
在測試時間或推理范例中,有兩件事很快就會凸顯出來。第一,大型語言模型(LLMs)會非常迅速地探索潛在解決方案的空間,用于測試時間計算的算法可能會很快耗盡有用的解決方案搜索空間。第二點,存在一種被稱為驗證器的東西,它正在審視哪些可能是好的解決方案,哪些可能是壞的解決方案,應該追求什么。
在微觀層面上,從預訓練轉(zhuǎn)向推理時間有幾個重大影響。其一,它能使收入生成與支出更好地協(xié)調(diào)一致。在測試時間計算擴展的世界里,你現(xiàn)在正在使你的支出與模型的底層使用情況相匹配。因此,就純粹的效率和財務(wù)方面的可擴展性而言,對于超大規(guī)模企業(yè)來說,這要好得多。
第二個重大影響在于,向推理時間的轉(zhuǎn)變需要開始思考如何重新設(shè)計網(wǎng)絡(luò)架構(gòu)?是否需要在能源低成本的陸地上建立數(shù)百萬個芯片超級集群,還是需要在全國范圍內(nèi)分散布局更小、更低延遲、更高效的推理時間數(shù)據(jù)中心?而且當重新設(shè)計網(wǎng)絡(luò)架構(gòu)時,對電力利用率和電網(wǎng)設(shè)計的影響是什么?
在當下這個大模型平臺期,小團隊開始趕上前沿模型。只有兩到五個人的團隊,能夠以遠低于大型實驗室投入的資金,追趕前沿。部分原因在于開源模型的數(shù)量驚人地激增。具體來說,Meta 在 LLaMA 方面的所作所為在這里產(chǎn)生了巨大的影響。
你不需要大量的計算資源,或者你不需要大量的數(shù)據(jù),你就能夠在特定的垂直領(lǐng)域、特定的技術(shù)或者特定的用例方面展現(xiàn)出特別的聰明才智和創(chuàng)新能力,從而非常迅速地躍升至前沿。我認為這在很大程度上改變了我個人對模型層以及模型層潛在早期投資的看法。
對于處于技術(shù)前沿的團隊來說,他們不再特別受限于GPU資源,尤其是在追求測試時推理或計算的情況下。與2022年相比,計算方面的挑戰(zhàn)已不再那么嚴峻,特別是對于服務(wù)少量企業(yè)客戶或針對特定用例優(yōu)化的消費者解決方案的團隊。
到 2025 年,我們將非常接近或達到通用人工智能的水平。鑒于當前的進展和創(chuàng)新,再加上現(xiàn)在轉(zhuǎn)向測試時的計算和推理,從這個角度來看,通用人工智能即將到來。
如果 OpenAI 選擇宣稱已實現(xiàn)通用人工智能,我認為這將在他們和微軟之間引發(fā)一種非常有趣的動態(tài),這將加劇當前已經(jīng)在發(fā)揮作用的、本就非常有趣的動態(tài)。所以,這在明年肯定是值得關(guān)注的,不僅對公開市場的投資者而言是如此,對更廣泛的生態(tài)系統(tǒng)的影響也是如此。
六、九個月前大家都非常擔憂的增量資本。但從第三季度的數(shù)據(jù)中得出的看法是,這里有應用場景。推理正在進行。技術(shù)正在發(fā)揮其應有的作用,推理的成本在驟降,利用率在飆升。把這兩者結(jié)合起來,你會得到一個不斷增長的可觀收入,一切都很好。
在私人市場中,正在發(fā)生的事情之一就是計算價格的急劇下降,無論是推理還是訓練,或者其他什么,因為它變得越來越容易獲得。如果你今天坐在這里,作為一名應用程序開發(fā)人員,與兩年前相比,這些模型的推理成本下降了 100 倍、200 倍。坦率地說,這太離譜了。從未見過成本曲線看起來如此陡峭、如此之快。
以下為對談全文:
Patrick
今天我的嘉賓是Chetan Puttagunta和Modest Proposal。如果你像我一樣癡迷于人工智能前沿以及商業(yè)和投資影響,那你一定會喜歡這場對話。Chetan是基準資本Benchmark的普通合伙人兼投資者,而Modest Proposal是一位匿名投資者,他在公開市場管理著一大筆資金。兩人都是我的好朋友,也是這個節(jié)目的常客,但這是他們第一次一起出鏡。
時機再好不過了。隨著頂尖實驗室達到規(guī)模極限,并從預訓練轉(zhuǎn)向測試時的計算,我們可能正在見證人工智能發(fā)展的一個關(guān)鍵轉(zhuǎn)變。我們一起探討這一變化如何能夠使人工智能開發(fā)民主化,同時重塑公共和私人市場的投資格局。請享受與我的朋友Chetan Puttagunta和Modest Proposal的精彩討論。
LLMs的現(xiàn)狀及其規(guī)模
Patrick
那么,Chetan,或許你可以先從你的角度跟我們講講,在關(guān)于大型語言模型及其擴展的故事中,在技術(shù)方面當下最有趣的部分是什么。
Chetan
是的,我認為我們現(xiàn)在處于這樣一個階段,即人們普遍認同或知曉,在過去的兩年里,所有實驗室在如何看待規(guī)模擴展方面都遇到了某種趨于平穩(wěn)的效果,這特別是在預訓練領(lǐng)域。據(jù)規(guī)模擴展的規(guī)律,在預訓練中,計算能力增加得越多,得到的模型就越好。一切都以數(shù)量級來考慮。所以,在這個問題上增加 10 倍的計算能力,模型性能和智能就會有一個階躍函數(shù)式的提升。
這無疑在這里帶來了令人難以置信的突破,我們從所有實驗室看到的都是非常出色的模型。但這一切的陰影甚至從2022年底開始,在某個時候,我們將耗盡由人類生成的文本數(shù)據(jù)。
而且我們很快就要進入合成數(shù)據(jù)的世界了。世界上所有的知識實際上都已被標記化,并被這些模型所吸收。當然,存在小眾數(shù)據(jù)、私人數(shù)據(jù)以及所有這些尚未被標記化的小型存儲庫,但就數(shù)量級而言,這不會對這些模型的可用數(shù)據(jù)量產(chǎn)生特別顯著的增加。
在 2022 年展望未來時,你們看到了合成數(shù)據(jù)是否能讓這些模型繼續(xù)擴展這個重大問題。
正如你們看到的那條線,大家都認為這個問題會在 2024 年真正凸顯出來。而現(xiàn)在我們就在這里,我們身處當下,大型模型供應商都在努力用合成數(shù)據(jù)進行訓練。而現(xiàn)在,正如媒體所報道的,以及所有這些人工智能實驗室的領(lǐng)導者都公開表示,由于合成數(shù)據(jù),我們現(xiàn)在遇到了限制。
由大型語言模型自身生成的合成數(shù)據(jù)無法使預訓練中的規(guī)模擴展得以持續(xù)。因此,我們現(xiàn)在轉(zhuǎn)向一種被稱為測試時計算的新范例。從非;镜膶用鎭碚f,測試時計算就是你實際上讓大型語言模型審視這個問題,想出一系列可能的解決方案,并并行推進多種解決方案。你創(chuàng)建了這個叫做驗證器的東西,反復地對解決方案進行迭代處理,而這種新的擴展范例,可以說,在 X 軸上以對數(shù)刻度測量的時間,以及在 Y 軸上的智能。
這就是我們?nèi)缃竦奶幘,似乎幾乎所有人都在邁向這樣一個世界:在這個世界里,我們從基于預訓練和訓練的擴展,發(fā)展到基于如今被稱為推理的擴展,或者說推理時間、測試時間,無論你怎么稱呼它。這就是截至 2024年第四季度我們的現(xiàn)狀。
Patrick
這是一個關(guān)于整體情況的后續(xù)問題。那么,先把資本支出以及我們稍后與大型公共科技公司討論的所有其他問題放在一邊,基于你現(xiàn)在所了解的情況,能否說,轉(zhuǎn)向以時間為變量的測試時縮放,就像“誰在乎呢?”只要這些東西變得越來越強大,這不就是最重要的嗎?而且我們是以一種不同于僅僅基于預訓練的方式來做這件事的,這一事實又如何呢?真的有人在乎嗎?這重要嗎?
Chetan
在測試時間或推理范例中,有兩件事很快就會凸顯出來,那就是大型語言模型(LLMs)會非常迅速地探索潛在解決方案的空間。作為模型開發(fā)者或從事模型工作的人員,很快就會意識到,用于測試時間計算的算法可能會很快耗盡有用的解決方案搜索空間。這是第一點。
第二點,存在一種被稱為驗證器的東西,它正在審視哪些可能是好的解決方案,哪些可能是壞的解決方案,應該追求什么,以及能夠辨別出哪些是好的解決方案,哪些是壞的解決方案,或者哪些是最佳路徑,哪些不是最佳路徑。目前尚不清楚這是否會隨著計算能力的無限增強而呈線性擴展。最后,任務(wù)本身可能是復雜的、不明確的,而限制因素可能是計算能力,也可能不是。
所以,思考這些問題總是非常有趣的,就好像你有無限的計算能力來解決這個問題,你能否做得更快?當然,在推理方面,肯定會有一些問題,如果你只是擴大計算規(guī)模就能做得更快。但很多時候,我們開始看到證據(jù)表明,在我們當今擁有的技術(shù)中,這不一定是能隨計算呈線性擴展的東西。
現(xiàn)在我們能夠解決所有這些問題嗎?當然,會有算法的改進,會有數(shù)據(jù)的改進,會有硬件的改進,這里會有各種各樣的優(yōu)化改進。我們?nèi)栽诎l(fā)現(xiàn)的是,用于推理的基礎(chǔ)模型所擁有的固有知識或可用數(shù)據(jù)仍然有限。僅僅因為你在追求測試時間,并不意味著你就能通過在測試時間擴大計算規(guī)模來突破之前所有的數(shù)據(jù)限制。
所以,這并不是說我們在推理方面遇到了障礙,也不是說我們在測試時間遇到了障礙。這只是問題集、挑戰(zhàn)以及計算機科學問題開始演變。作為一名風險投資家,我非常樂觀,相信我們能夠解決所有這些問題。但它們是可以解決的。
宏觀視角
Patrick
那么,如果這就是研究實驗室的觀點,Modest,我很好奇你能給我們講講大型公共科技公司的悲觀看法,因為在這個話題上,很多內(nèi)容都是關(guān)于支出資本、戰(zhàn)略定位、所謂的所有這些支出的投資回報率,以及他們將如何在這一巨額資本支出中獲取回報。你認為Chetan剛剛所說的一切都能很好地反映在公共科技公司的立場、定價和估值中嗎?
Modest
我認為你必須從宏觀層面開始,然后再深入到微觀層面。為什么這很重要呢?因為大家都知道,如今在標準普爾 500 指數(shù)中,大型科技公司所占比例更大。但除此之外,我認為從主題上講,人工智能已經(jīng)更廣泛地滲透到工業(yè)、公用事業(yè)領(lǐng)域,而且我認為,作為對這一領(lǐng)域的直接投資,其市值占比在 40%到 45%之間。
而且,如果你甚至將其擴展到世界其他地區(qū),你就會把阿斯麥(ASML)、臺積電(TSMC)以及整個日本芯片行業(yè)都牽扯進來。
所以,如果你看看累計市值,這是當下對人工智能的直接投資,規(guī)模巨大。所以我認為,當你審視整個投資格局時,你幾乎被迫對此形成看法,因為幾乎所有人都會在某種形式上與一個指數(shù)進行對比,而該指數(shù)在微觀層面上將是人工智能的衍生投資。我認為這是一個令人著迷的時代,因為所有的公開市場投資都是對不同路徑進行情景分析和概率加權(quán)。如果你回想一下大概四個月前我們談?wù)摰臅r候,我想說,結(jié)果的分布已經(jīng)發(fā)生了變化。
當時,在那個時間點,在那個層面上進行預訓練和擴大規(guī)模絕對是可行之道。當時我們就討論了其影響。我們談?wù)撨^帕斯卡的賭注,也談?wù)撨^囚徒困境。在我看來,當投入成本是 10 億美元或 50 億美元時,談?wù)撨@些是容易的。但我們很快就要接近這樣一個時間點,屆時賭注將達到 200 億美元或 500 億美元。你可以看看這些公司的現(xiàn)金流量表。很難悄悄加入300億美元的交易額度。
因此,GPT-5 的成功總體上崩潰了。讓我們將其應用于所有不同的實驗室。我認為這原本會是關(guān)于投入資金量的一個重大證明點,因為這些都是三到四年的投入承諾。如果你回到寫這篇文章的時候,當時是在談?wù)?Stargate,即假設(shè)的由 OpenAI 和微軟討論的 1000 億美元數(shù)據(jù)中心,那是在 2028 年的交付承諾。
但在接下來的六到九個月中的某個時候,要么行,要么不。我們已經(jīng)知道,30 萬到 40萬個芯片的超級集群將在明年年底到 2026 年初交付。但我們可能需要看到下一款機型取得一些成功的證據(jù),才能獲得下一輪的承諾。所以,我認為所有這些都是背景。在微觀層面上,如果我們從預訓練轉(zhuǎn)向推理時間,這將是一個非常有力的轉(zhuǎn)變,并且有幾個重大影響。
其一,它能使收入生成與支出更好地協(xié)調(diào)一致。我認為這對于整個行業(yè)來說是一個非常非常有益的結(jié)果,因為在預訓練領(lǐng)域,情況并非如此。
將投入 200 億、300 億、400 億美元用于資本支出,在 9 到 12 個月內(nèi)訓練模型,進行訓練后的工作,然后將其推出,然后希望通過推理從中獲得收入。在測試時間計算擴展的世界里,你現(xiàn)在正在使你的支出與模型的底層使用情況相匹配。因此,就純粹的效率和財務(wù)方面的可擴展性而言,對于超大規(guī)模企業(yè)來說,這要好得多。
我認為第二個重大影響在于,同樣,我們必須說,我們不知道預訓練的規(guī);欠駮V。但如果你確實看到了這種向推理時間的轉(zhuǎn)變,我認為你需要開始思考如何重新設(shè)計網(wǎng)絡(luò)架構(gòu)?你是否需要在能源低成本的陸地上建立數(shù)百萬個芯片超級集群,還是需要在全國范圍內(nèi)分散布局更小、更低延遲、更高效的推理時間數(shù)據(jù)中心?而且當你重新設(shè)計網(wǎng)絡(luò)架構(gòu)時,對電力利用率和電網(wǎng)設(shè)計的影響是什么?
我想說,支撐投資世界很大一部分的諸多敘述,我認為都得重新思考。而且我要說,由于這是一種相對較新的現(xiàn)象,如今公眾市場尚未開始著手應對這種潛在的新架構(gòu)是什么樣子,以及它可能會如何影響一些潛在的支出。
小團隊也在打造出色的模型
Patrick
Chetan,我很好奇,或許能講講 DeepSeek 以及其他類似的情況,在這些情況中,你會看到小團隊用相對較少的資金構(gòu)建新模型,在性能上與一些前沿模型相競爭。你能談?wù)勥@種現(xiàn)象以及它讓你想到了什么,或者對整個行業(yè)有何影響嗎?
Chetan
這真的令人驚嘆。在過去的,大概六周的時間里,我們在 Benchmark 這里見到的團隊,成員人數(shù)在兩到五人之間。Modest之前在你們的播客中談過這個,那就是技術(shù)創(chuàng)新的故事一直是,在帕洛阿爾托的某個車庫里,總是有兩到三個人在做一些事情,以非常非常迅速地趕上老牌企業(yè)。
我認為我們現(xiàn)在在模型層看到了這種情況,坦率地說,這是兩年來未曾見過的。具體而言,我認為我們?nèi)匀徊荒馨俜种俅_定預訓練和訓練規(guī)模的回歸不會發(fā)生。
我們目前還不知道。但在當下這個趨于平穩(wěn)的時期,我們開始看到這些小團隊趕上前沿。我所說的前沿是指最先進的模型在哪里,特別是在文本處理方面?我們看到這些小團隊,確切地說,只有兩到五個人,以遠低于大型實驗室投入多個數(shù)量級的資金躍上了前沿。
我認為部分原因在于開源模型的數(shù)量驚人地激增。具體來說,Meta 在 LLaMA 方面的所作所為在這里產(chǎn)生了巨大的影響。LLaMA 3.1 有三種版本,分別為 4050 億、700 億和80 億。而 LLaMA 3.2 則有 10 億、30 億、110 億和 900 億這幾種版本。
你可以獲取這些模型,下載它們,將它們放在本地機器上,你可以將其放入云端,可以將其放在服務(wù)器上,并且你可以使用這些模型來進行提煉,優(yōu)化調(diào)整、訓練、改進等等,等等,并憑借相當有趣的算法技術(shù)跟上前沿。
而且由于你不需要大量的計算資源,或者你不需要大量的數(shù)據(jù),你就能夠在特定的垂直領(lǐng)域、特定的技術(shù)或者特定的用例方面展現(xiàn)出特別的聰明才智和創(chuàng)新能力,從而非常迅速地躍升至前沿。我認為這在很大程度上改變了我個人對模型層以及模型層潛在早期投資的看法。這里存在很多不確定性,很多依賴變量,而且實際上在六周內(nèi),這一切可能都不再成立了。
但如果這種狀態(tài)成立,即預訓練并非因合成數(shù)據(jù)而擴展,這僅僅意味著你現(xiàn)在可以做得更多,以最少的資金迅速跳到前沿,找到你的用例,找到你最強大的地方,然后從這一點出發(fā),坦率地說,超級巨頭會成為最好的朋友。
因為在當今,如果你處于前沿領(lǐng)域,你正在推動一個用例,你不再受到 GPU 的特別限制。特別是如果你打算進行測試時推理、測試時計算之類的工作,并且你為比如說 10 家企業(yè)客戶提供服務(wù);蛘咭苍S這是一個針對特定用例優(yōu)化的消費解決方案。
計算方面的挑戰(zhàn)已經(jīng)不像2022年那么大了。在 2022 年,你會和這些開發(fā)者交流,這就變成了這樣一個問題:嗯,你能把十萬個集群拼湊在一起嗎?因為我們需要進行訓練,然后還得去買所有這些數(shù)據(jù),即便你知曉所有技術(shù),突然間你一算,就會說,要啟動第一次訓練運行我得花十億美元。而這可不是一種可行的模式。
從歷史上看,這就是風險投資模式。風險投資模式一直是能否組建一支非凡的團隊,實現(xiàn)技術(shù)突破,做到資本輕型化,迅速超越現(xiàn)有企業(yè),然后以某種方式獲得分銷立足點并推進。在過去兩年的模式層面,這似乎絕無可能實現(xiàn)。但在過去的六、八周里,這種情況確實發(fā)生了改變。
Modest
我認為這很重要。關(guān)于 Meta 開源以及超大規(guī)模公司的開源推動前沿發(fā)展,小型模型能夠擴展到非常成功的程度,這是極其有益的,特別是對于沒有原生大型語言模型的 AWS 來說。但如果你退一步思考一下云計算的歷史,就會發(fā)現(xiàn)它為開發(fā)者和建設(shè)者提供了一套工具。AWS 率先清晰地闡述了這一愿景。
9 月份在高盛的一次會議上,馬特加曼公開談到了此事。但他們的觀點顯然一直是,大型語言模型只是另一種工具,生成式人工智能是他們能夠為其企業(yè)客戶和開發(fā)者客戶提供以打造下一代產(chǎn)品的另一種工具。這種愿景面臨的風險是一個全能且具有普遍性的暴民。
所以,這再次讓你不得不重新思考,如果我們不構(gòu)建這些大規(guī)模的預訓練實體,將訓練損失降至近乎為零,并以這樣或那樣的形式構(gòu)建出那個隱喻中的上帝,那會怎樣。
相反,如果行業(yè)的重點是在測試階段、推理階段,并試圖在客戶需要的地方解決實際問題,我認為這再次重新設(shè)計并重新構(gòu)建了這項技術(shù)如何推出的整個愿景。而且我認為我們需要謙遜,因為我們不知道 LLaMA 4 會是什么樣子。我們不知道Grok 3 即將推出。這是目前在有史以來最大的集群上進行訓練的兩個模型。
所以我們現(xiàn)在所說的一切可能在三個月內(nèi)都是錯的。但我認為,當下的整個工作就是吸收所有可用的信息,并根據(jù)我們?nèi)缃袼匦旅枥L各種情景路徑。如果這是正確的,我覺得人們還沒有更新他們對于這些路徑可能如何發(fā)展的先驗判斷。
Patrick
我很好奇,Chetan,對于這種變化,也許現(xiàn)在你會投資一家模式公司,你怎么看。我記得兩年前我們一起吃晚餐的時候,你跟我說,作為一家公司,你們剛剛決定不投資這些公司。就像你說的,這不符合我們的模式。我們不會在首次試運行時就開出數(shù)十億美元的支票。
因此,我們不在那部分堆棧上進行投資。我們更多地投資于應用層,在這場討論中稍后我們會再次回到這個話題。但也許再多談?wù)勥@種關(guān)于其如何運作的更新觀點,一個示例投資可能是什么樣子,以及即使 LLaMA 4 是預訓練縮放損失保持不變,這是否會改變,因為這似乎只是像 DeepSeek 那樣受益。好的,現(xiàn)在不是 3.2,而是 4,我們?nèi)栽谧鑫覀兊氖,而且仍然更好、更便宜、更快等等?br/>
那么,是的,對于這種新觀點,即有可能投資于模式公司,而不僅僅是應用公司,你有何看法?
Chetan
在 Meta 的上一次財報電話會議上,馬克扎克伯格談到了他們開始開發(fā) LLaMA 4,并表示 LLaMA 4 正在一個比以往他所見過的任何集群都大的集群上進行訓練。
所引用的數(shù)字表明,它比十萬臺 H100 還要強大,或者比我所看到的關(guān)于其他公司正在做的任何事情都要強大。而且他還說,你知道,較小的 Llama 4 型號應該會在 2025年初準備好。這真的很有趣,因為無論 Llama 4 相對于 Llama 3 是否是階躍函數(shù),這都不重要,重要的是他們是否突破了效率的界限,達到了即使只是逐步提升的程度,這對開發(fā)者群體產(chǎn)生的影響也是相當深遠的,因為如今 Llama 的影響力有兩個方面,我認為這對 Meta 非常有利,其一。Llama 所使用的 Transformer 架構(gòu)是一種標準架構(gòu),但它有自己的細微差別。
而且,如果構(gòu)建于 Llama 之上的整個開發(fā)者生態(tài)系統(tǒng)開始僅僅假定 Llama 3 變換器架構(gòu)是基礎(chǔ)且某種標準的做法,那么這就有點像是將整個堆棧朝著 Llama 的思維方式標準化,從硬件供應商如何支持你的訓練運行,到超級巨頭等等,不一而足。因此,對 Llama 本身的標準化開始變得越來越普遍。
所以,如果你要創(chuàng)辦一家新的模式公司,最終的結(jié)果是,如今從 Llama 開始,不僅很棒,因為 Llama 是開源的,而且還極其高效,因為整個生態(tài)系統(tǒng)都在采用這種架構(gòu)。所以你是對的,作為一家擁有 5 億美元資金的早期基金,我們試圖在每個基金周期進行 30 項投資,10 億美元的試運行基本上意味著你要投入兩筆資金來進行一次可能成功也可能不成功的試運行。
因此,這是一項資本高度密集型的業(yè)務(wù)。順便說一下,這些模型的折舊時間表令人望而生畏。蒸餾作為一種技術(shù),使得這些模型的防御性和這些模型的注釋極其具有挑戰(zhàn)性。這實際上歸結(jié)為你在其之上進行的應用是什么,你的網(wǎng)絡(luò)效應是什么,你如何在那里獲取經(jīng)濟效益等等。
我認為,就目前的情況而言,如果你是一個兩到五人的團隊,你可以以編程為例,通過在 Llama 的基礎(chǔ)上進行微調(diào)訓練,推動建立一個能更快生成更好編程答案的模型,然后提供一個應用程序,其中包含你自己的定制模型,這確實能為你的客戶(無論是開發(fā)者還是其他類似的人員)帶來非凡的效果。所以,我們這里的特定方法和策略一直是,從我們看到 OpenAI API 開始流行起的時候起,就大力投資于應用程序。
2022 年夏天,我們開始看到開發(fā)者談?wù)撨@些 OpenAI API。從那時起,我們的很多努力就是尋找那些考慮利用這些 API 來開拓應用層的企業(yè)家,并真正開始思考在當前這波人工智能浪潮之前根本不可能存在哪些應用。
顯然,我們已經(jīng)看到一些非常出色的成功公司從中脫穎而出,它們?nèi)蕴幱谠缙陔A段,但它們所展現(xiàn)出的發(fā)展勢頭、所提供的客戶體驗、所采用的生物識別技術(shù)等等,都非同凡響。幾周前,布雷特泰勒(Brett Taylor)曾在你們的播客節(jié)目中,塞拉(Sierra)就是一個這樣的例子。在采購方面,我們有一個叫做 Levelpath 的項目。在整個投資組合中,在應用層還有許多其他例子,在那里,你可以審視每一個大型 SaaS 市場,用應用層的投資去開拓它,并開始思考如今哪些是兩年、三年、四年前還無法實現(xiàn)的事情。
深入探究基礎(chǔ)模型及主要參與者
Patrick
我很好奇,想稍微談?wù)勎覀冋劦降哪切┐笮突A(chǔ)模型參與者,比如 Llama,但不太想談 xAI、 Anthropic 和 OpenAI,也許還有 Meta。先從你說起,我很好奇你對于它們的戰(zhàn)略定位以及每家重要的方面的想法。
也許以 OpenAI 為例,也許這里的關(guān)鍵在于他們打造了一個多么出色的品牌,他們擁有龐大的用戶群體,他們有眾多出色的合作伙伴,人們知曉并使用他們的產(chǎn)品,有很多人為他們付費,比如 20 美元之類的。也許在這種模式中,分發(fā)渠道比產(chǎn)品本身更為重要。
我很好奇你對這三位球員的看法,到目前為止他們占據(jù)主導地位,但通過你目前的分析,似乎重要的是他們要不斷創(chuàng)新。
Modest
所以我認為對 OpenAI 來說有趣的部分在于,他們剛剛完成了最近一輪融資,而且對于投資理由有一些相當公開的評論。沒錯,很多評論都圍繞著這樣一個觀點,即他們在消費端已經(jīng)獲得了逃逸速度,ChatGPT 現(xiàn)在是認知的參考,隨著時間的推移,他們將能夠聚集巨大的消費需求端,并據(jù)此收取適當?shù)馁M用,而他們在企業(yè) API 和應用程序構(gòu)建方面的投入要少得多。
如果你仔細想想我們所談?wù)摰膬?nèi)容,就會發(fā)現(xiàn)這超級有趣。
在他們的財務(wù)數(shù)據(jù)中,如果你剔除培訓費用,如果你剔除這筆巨大的前期支出需求,按照他們的預測,這實際上很快就會成為一家利潤豐厚的公司。所以從某種意義上說,這可能會更好。
那么現(xiàn)在問題變成了,一家不再在前沿領(lǐng)域呈階躍式推進的公司,其防御能力如何?在這 方面,我認為這最終將歸結(jié)為一點,谷歌也在前沿推進,而且他們很可能會免費贈送產(chǎn)品,還有 Meta。我認為我們或許可以花一整集來談?wù)?Meta 以及他們在企業(yè)和消費者方面的嵌 入式選擇權(quán)。但讓我們先談?wù)勏M者方面。
這是一家擁有超過 30 億消費者接觸點的企業(yè)。他們顯然正在將 Meta AI 應用于各種場景。不難看出,他們應該收購 Perplexity 公司。
但你剛剛還看到司法部站出來表示,谷歌應該被迫授權(quán)其搜索索引。我想不出還有誰比 Meta 更有利可圖,它有機會以極低的成本承接谷歌的搜索索引。但關(guān)鍵在于,我認為將會有兩個大規(guī)模的互聯(lián)網(wǎng)巨頭免費提供本質(zhì)上類似于 ChatGPT 的產(chǎn)品。所以這將是一個引人入勝的案例研究,探討“這種產(chǎn)品能否在消費者心目中占據(jù)主導地位”。
我的孩子們知道 ChatGPT 是什么,他們不知道 Claude 是什么。我的家人知道 ChatGPT 是什么,他們不知道 Grok 是什么。所以我認為對于 OpenAI 來說,問題在于你能否超越免費?如果你能,而且訓練成本降低,這將是一家很快就能盈利的公司。
如果你去了解 Anthropic 公司,我認為他們面臨著一個有趣的困境,即人們認為 Sonnet 3. 5 可能是現(xiàn)有的最佳模型。他們擁有令人難以置信的技術(shù)人才。他們不斷吸納越來越多的 OpenAI 研究人員,我認為他們會構(gòu)建出出色的模型,但他們有點受困。他們在消費者中的知名度不高。
在企業(yè)方面,我認為 Llama 會讓前沿的模型構(gòu)建者很難試圖在那里創(chuàng)造巨大的價值。所以他們被困在中間。出色的技術(shù)專家,優(yōu)質(zhì)的產(chǎn)品,但并非真正可行的策略。而且你看,他們又籌集了 40 億美元。
對我來說,這表明預訓練的擴展效果不太好,因為 40 億美元遠遠達不到他們的需求。如果擴展的途徑是預訓練,那我對他們未來的戰(zhàn)略路徑就沒什么好的判斷力了。我認為他們陷入了困境。關(guān)于 xAI,我就當不知道了。
他是一位獨一無二的人才,他們將擁有一個 20 萬芯片集群,并且有一個面向消費者的接觸點,他們正在構(gòu)建一個應用程序編程接口(API)。但我認為,如果預訓練是擴展的途徑,那么他們將面臨與其他所有人相同的數(shù)學難題,只不過可能因埃隆獨特的籌資能力而有所緩解。
但同樣,在接下來的四五年的時間里,數(shù)字會迅速變得如此龐大,甚至可能超過他。然后,如果到了測試階段,計算和算法改進以及推理,它們的差異在哪里,它們的市場切入點在 哪里,當你有人在消費端站穩(wěn)腳跟,而企業(yè)端又有一個同樣強大的開源實體時,情況會怎樣?
所以當你審視這三者時,我認為最容易看清的是 OpenAI 未來的發(fā)展方向是什么。
不過,關(guān)于 OpenAI,我要說的是諾姆布朗,我發(fā)現(xiàn)他是研究領(lǐng)域最出色的溝通者之一。他最近上了紅杉資本的播客節(jié)目,當被問及通用人工智能時,他說,你看,我覺得我在 OpenAI 之外的時候,對整個通用人工智能的事情持懷疑態(tài)度。但實際上這是他們所關(guān)注的。
當我進入 OpenAI 工作時,我非常清楚他們對于通用人工智能(AGI)非常認真,這是他們的使命,其他一切都服務(wù)于 AGI。我們很容易坐在外面,清晰地闡述如果我們負責那里可能會采取的策略,但我認為我們需要意識到這樣一個事實,即他們之所以能走到今天這一步,部分原因在于他們肩負著使命。
該任務(wù)是開發(fā)通用人工智能,對于為其設(shè)定任何其他最終目標,我們都應該非常謹慎。
Chetan
而我個人的看法是,通用人工智能已經(jīng)非常接近實現(xiàn)了。
Patrick
再多說幾句。那為什么它還沒到這兒?這些東西比我打交道的大多數(shù)人都聰明。
Chetan
是的,我想是這樣。狹義定義的人工通用智能(AGI),或者也許是從廣義定義的角度來看,這取決于你的觀點,是一個高度自主的系統(tǒng),在某些情況下在某些具有經(jīng)濟價值的工作中超越了人類的表現(xiàn)。用這種視角很容易說 AGI 已經(jīng)存在。我認為非常明確的是,如果你看看 OpenAI 發(fā)布的公告以及他們高管在最近幾周接受的采訪,其中一個例子是端到端的旅行預訂,這是我們可以期待在 2025 年看到的東西,在那里你可以提示系統(tǒng)為你預訂旅行,然后它就會去做。
這是一種新的思維方式,即端到端的任務(wù)完成或端到端的工作完成。這顯然涉及推理,涉及自主工作,涉及使用計算機,正如克勞德所闡述的那樣。而且你正在將這些大型語言模型與生態(tài)系統(tǒng)本身相互作用的多種方式結(jié)合起來,將其放入一個非常出色的組合中,從而能夠完成端到端的工作,并使其完全自動化,做得比人類更好。在我看來,從這個角度來看,我們已經(jīng)非常非常接近了。
而且我設(shè)想,到 2025 年,我們將非常接近或達到通用人工智能的水平。鑒于當前的進展和創(chuàng)新,再加上現(xiàn)在轉(zhuǎn)向測試時的計算和推理,從這個角度來看,通用人工智能即將到來。
Modest
這很有趣,因為我們有點像在水里煮的青蛙,我們相當輕松地通過了圖靈測試,然而再也沒有人坐在這里談?wù),天哪,我們通過了圖靈測試。它來了又過去了。所以,也許通用人工智能的宣告也是同樣的道理,就像,是的,當然模型能夠預訂端到端的旅行。這實際上沒那么難。
然而,兩年半以前,如果你說:“嘿,有一種算法,你可以告訴它你想做什么,它會從頭到尾安排好并給你發(fā)送一張收據(jù)。”你會說,
“沒門兒!彼赃@可能有點像煮青蛙,突然有一天你醒來,一個實驗室說:“嘿,我們實現(xiàn)了通用人工智能!贝蠹铱赡苡悬c像,“啊,酷!辈贿^,實驗室宣布實現(xiàn)通用人工智能在更廣泛的意義上有趣,有一個特別的原因,那就是與微軟的關(guān)系。微軟去年夏天首次披露,在通用人工智能實現(xiàn)之前,他們擁有 OpenAI 知識產(chǎn)權(quán)的全部權(quán)利。
所以,如果 OpenAI 選擇宣稱已實現(xiàn)通用人工智能,我認為這將在他們和微軟之間引發(fā)一種非常有趣的動態(tài),這將加劇當前已在發(fā)揮作用的、本就非常有趣的動態(tài)。所以,這在明年肯定是值得關(guān)注的,不僅對公開市場的投資者而言是如此,對更廣泛的生態(tài)系統(tǒng)的影響也是如此。因為我再次認為,如果我們現(xiàn)在所走的道路是正確的,那么隨著我們向前推進,關(guān)系和商業(yè)伙伴關(guān)系將會有很多重新洗牌。
Patrick
Chetan,Modest對大公司的評估中還有其他內(nèi)容嗎?而且鑒于我們沒有特別談到谷歌,我們很希望聽聽你對谷歌的看法。有沒有他說的話你不同意或者想要進一步追問的?
Chetan
不,我認為我們只是不知道的是,我們不知道所有這些房間里進行的潛在討論,我們可以推測并了解我們可能會怎么做。但我認為,歸根結(jié)底,每一家互聯(lián)網(wǎng)企業(yè)或科技企業(yè)最終都歸結(jié)為以下兩種情況。
在消費者方面,分銷隨后與某種網(wǎng)絡(luò)效應和鎖定效應相結(jié)合,然后你就能憑借這一點脫穎而出,在競爭中占據(jù)優(yōu)勢。而在企業(yè)方面,這在很大程度上是一種由技術(shù)差異化以及以出色的服務(wù)級別協(xié)議、優(yōu)質(zhì)的服務(wù)以及非常獨特的解決方案交付方法所驅(qū)動的業(yè)務(wù)。所以,Modest對消費者的評論以及消費者將如何演變。
我認為這完全正確。Meta、谷歌和 XAI 都有面向消費者的接觸點。OpenAI 如今擁有出色的品牌,憑借 ChatGPT 以及大量的消費者接觸點。在企業(yè)方面,挑戰(zhàn)在于這些 API 迄今在很大程度上都不如開發(fā)者所期望的那樣可靠。
由于超大規(guī)模云服務(wù)提供商出色的工作,開發(fā)人員已經(jīng)習慣,如果你為一款產(chǎn)品提供 API,那么這款產(chǎn)品應該是無限可擴展的,全天候可用的,API 失效的唯一原因是某個大型數(shù)據(jù) 中心停電之類的原因。很少有理由讓 API 失效。這已成為開發(fā)人員對企業(yè)解決方案的思維模式。在過去的兩年里,AI API 的質(zhì)量對應用程序開發(fā)人員來說是一個巨大的挑戰(zhàn)。
因此,最終的結(jié)果是人們已經(jīng)找到了變通方法,并通過純粹的創(chuàng)新解決了所有這些問題。但在這方面繼續(xù)推進,我們再次回到這一點上。如果預先訓練和擴展不是解決之道,而完全取決于測試時的計算能力,這就是我們再次回到超大規(guī)模運營商傳統(tǒng)方式的地方。我認為在這方面,AWS 具有極大的優(yōu)勢,因為 Azure 和 Google 都有出色的云服務(wù),但 AWS擁有最大的云。
它確實以一種非常獨特的方式構(gòu)建了彈性。即使在今天,如果你運行 LLaMA 模型,你會希望在 AWS 上運行 LLaMA 模型,或者由于某些原因,如果你有一些非常特定的用例并且需要為本地客戶提供支持,你也可以
在那些監(jiān)管環(huán)境復雜或存在合規(guī)原因的大型金融機構(gòu)中,如果你愿意,你可以在本地運行這些模型。
而且,AWS 甚至已經(jīng)在這方面有所行動,比如 VPC(虛擬專用云)、GovCloud 以及諸如此類的東西。所以,如果我們假設(shè)預訓練和擴展工作已經(jīng)完成,那么突然之間, AWS 就會變得極其強大,在過去幾年里,他們的策略就是與開發(fā)者生態(tài)系統(tǒng)中的所有人交朋友,而不是自行開展大型語言模型的工作。
嗯,他們正在推進,但并非以與其他公司相同的方式推進,這最終很可能會成為一個相當不錯的策略,因為突然間你就擁有了最好的 API 服務(wù)。我認為另一部分是谷歌,我們還沒談?wù)摰剿麄兊脑圃谀承┓矫娣浅3錾。所以他們有企業(yè)業(yè)務(wù)。如果你看看最新的收益報告,會發(fā)現(xiàn)他們的企業(yè)業(yè)務(wù)實際上已經(jīng)相當大規(guī)模了。顯然,他們的消費業(yè)務(wù)占主導地位,而且一直有一種看法認為他們?nèi)缃袷艿搅藳_擊。
我認為這些力量對他們極具破壞性。但目前尚不清楚這種破壞是否已經(jīng)發(fā)生。他們對此采取了什么行動?顯然他們正在努力嘗試,而且很明顯他們正在非常努力地嘗試。
但我認為這是一件值得關(guān)注的事情,也是我喜歡的那種,因為這是典型的創(chuàng)新者困境。顯然,作為現(xiàn)有企業(yè),他們正努力站在不被創(chuàng)新者取代的有利一邊。他們非常努力。所以在商業(yè)史上,現(xiàn)有企業(yè)成功阻止創(chuàng)新者攻擊的情況非常少見。
而且如果他們在這個時代確實捍衛(wèi)了自己的業(yè)務(wù),那將是一項非凡的成就。
Modest
是的,谷歌非常引人入勝,因為曾有一位出色的賣方分析師卡洛斯基爾吉納(Carlos Kirjner),不幸的是,他去世了。但在 2015 年和 2016 年,他花了大量報告來寫谷歌在人工智能方面的進展,以及他們在 DeepMind 所做的基礎(chǔ)工作,實際上他非常喜歡這些工作,最終去了谷歌工作,但首先揭示了他們在神經(jīng)網(wǎng)絡(luò)和深度學習方面所做的基礎(chǔ)工作這一想法。
顯然,他們被這種大規(guī)模的暴力擴展所震驚,推動這波技術(shù)的是實實在在地在計算上投入。但如果你閱讀過任何對那些預見到這堵數(shù)據(jù)墻的人的采訪,他們談到的其中一點是,自我對弈可能是克服數(shù)據(jù)不足的一種模式。而誰比 DeepMind 更擅長自我對弈呢?
如果你審視一下 DeepMind 在 Transformer 出現(xiàn)之前所擁有的成果,以及他們將 Transformer 與計算能力的擴展相結(jié)合所取得的成果,似乎他們已經(jīng)具備了所有能取勝的條件。但我一直以來提出的問題都不是谷歌能否在人工智能領(lǐng)域取勝?而是,無論取勝是什么樣子,它是否有可能重現(xiàn)當前范例中取勝時的輝煌?這才是真正的問題所在。
正如Chetan所說,如果他們能克服困境并取得勝利,那將會令人驚嘆,但我認為他們具備這樣的條件。真正的問題在于,他們能否憑借現(xiàn)有的資產(chǎn)打造出一家企業(yè),這家企業(yè)在任何方面都能像可以說是我們所見過的最偉大的商業(yè)模式互聯(lián)網(wǎng)搜索那樣出色。所以我同樣很期待關(guān)注他們。我認為在企業(yè)方面,他們擁有令人難以置信的模式和資產(chǎn)。
我認為他們需要贏得很多信任。我覺得隨著時間的推移,他們在那個世界里起起落落,所以我認為這對他們來說是一個更難突破的方面。但在消費者方面,當然在模型構(gòu)建方面,他們已經(jīng)具備了所有獲勝的條件。
問題在于,那個獎項究竟是什么樣子?尤其是現(xiàn)在,如果看起來似乎不存在一兩個能稱霸的模型。
投資者對應用層的看法
Patrick
Chetan,我很好奇,作為一名尋求回報的投資者,你個人希望走什么樣的道路?
Chetan
我個人希望人工智能能持續(xù)很長時間。作為一名風險投資者,你需要巨大的顛覆來解鎖分銷。如果你看看互聯(lián)網(wǎng)或移動領(lǐng)域所發(fā)生的情況,以及價值在哪里產(chǎn)生,在這兩波浪潮中,價值主要在應用層產(chǎn)生。顯然,我們的假設(shè),也是我的假設(shè),是這一層由于人工智能應用層的創(chuàng)新,將再次非常有利于分銷的解鎖。我認為到目前為止這在很大程度上已經(jīng)顯現(xiàn)出來了。雖然仍處于早期階段,但那些推出面向消費者和企業(yè)的人工智能應用產(chǎn)品的供應商發(fā)現(xiàn),這些解決方案之所以能夠存在,完全是因為人工智能。它們正在以一種坦率地說在軟件即服務(wù)(SaaS)或面向?qū)I(yè)消費者的 SaaS 等領(lǐng)域無法實現(xiàn)的方式解鎖分銷渠道。
我們將給你一個非常具體的例子,一個由人工智能驅(qū)動的應用程序。我們現(xiàn)在正向《財富》500 強企業(yè)的首席信息官展示這些演示。兩年前,確實有一些不錯的演示。如今,這是一個非常出色的演示,同時還結(jié)合了五個客戶參考案例,這些客戶都是同行,他們在生產(chǎn)中使用了它,并取得了巨大的成功。在那次交流中,有一點變得非常清晰,那就是我們所展示的并非是對現(xiàn)有 SaaS 解決方案的 5%的改進。而是關(guān)于我們能夠大幅削減軟件支出和人力資本支出,并將其轉(zhuǎn)移到這個人工智能解決方案上。而且你對軟件的 10 倍傳統(tǒng)投資回報率的定義很容易被認可,人們能在 30 分鐘內(nèi)理解。
于是你開始看到,過去軟件即服務(wù)(SaaS)和人工智能應用通常有著非常漫長的銷售周期,而現(xiàn)在 15 分鐘就能做出決定,30 分鐘就能做出決定。而且對于企業(yè)來說,采購流程完全不穩(wěn)定,F(xiàn)在首席信息官會說類似這樣的話:“咱們盡快把這個搞定!蔽覀兇蛩氵M行為期 30 天的試點。一旦成功,我們就會簽訂合同并立即部署。這些情況在三年、四年前的軟件即服務(wù)領(lǐng)域是完全不可能的,因為當時你是在與老牌企業(yè)競爭,在與他們的分銷優(yōu)勢、服務(wù)優(yōu)勢以及所有這類東西競爭。而且很難證明你的特定產(chǎn)品是獨特的。
所以,自 2022 年以來,我可以說自 2022 年 11 月的 ChatGPT 以來,這在這個世界上似乎是一個非常好的前后界限。我們已經(jīng)對人工智能公司進行了 25 項投資,對于一個由五個合作伙伴組成的 5 億美元基金來說,這是一個非凡的速度。上次我們達到這種速度是在 2009 年 App Store 推出的時候。然后,我們再次達到這種速度是在 1995 年、1996 年的互聯(lián)網(wǎng)時期。在這兩者之間,你們可以看到我們的投資步伐相當緩慢。
在非顛覆性時期,我們平均每年大概投資五到七次。顯然,現(xiàn)在我們的投資步伐大幅加快。如果你看看這 25 家公司,其中四家是基礎(chǔ)設(shè)施公司,其余的是應用公司。而且我們剛剛投資了我們的第一家模式公司,不過這還沒有公布。
但這是兩個人,兩個非凡的、才華橫溢的人,他們帶著很少的資金就投身于前沿領(lǐng)域。所以,我們顯然已經(jīng)押注并預料到,在應用層會有巨大的創(chuàng)新和分發(fā)解鎖。我們已經(jīng)看到這種情況正在發(fā)生。作為軟件投資者,這些產(chǎn)品確實令人驚嘆。
它們需要對這些事物的架構(gòu)方式進行徹底的重新思考,從第一性原理出發(fā)。你需要統(tǒng)一的數(shù)據(jù)層,需要新的基礎(chǔ)設(shè)施,需要新的用戶界面以及諸如此類的東西。顯然,初創(chuàng)企業(yè)相對于老牌軟件供應商具有顯著的優(yōu)勢。這并不是說老牌軟件供應商停滯不前,只是如今在企業(yè)軟件領(lǐng)域,創(chuàng)新者的窘境比在消費領(lǐng)域更激烈地在我們眼前上演。
我認為在消費領(lǐng)域,消費者參與者已經(jīng)意識到了這一點,正在推動變革,并正在采取行動。然而,我認為在企業(yè)領(lǐng)域,即便你意識到了這一點,即便你有采取行動的愿望,解決方案的構(gòu)建方式也無法響應大幅的重組架構(gòu)。那么,我們能看到這種情況發(fā)生嗎?一家大型 SaaS 公司會暫停銷售兩年,然后徹底重新架構(gòu)其應用堆棧嗎?
當然,但我就是覺得這不會發(fā)生。所以,如果你看看關(guān)于人工智能軟件支出正在發(fā)生什么的任何分析,比如僅純支出在 2023 年和 2024 年之間同比增長了 8 倍。在短短一年的
時間里,就從幾億美元增長到了遠遠超過 10 億美元。你可以看到這種拉動,你能感受到這種拉動。
如果你身處這些人工智能應用公司中的任何一家,會發(fā)現(xiàn)這類公司更多地是受供應限制而非需求限制。我們與這些應用公司的首席執(zhí)行官交流,他們只是會說類似這樣的話:“嗯,就我所能看到的情況,我看到了需求!蔽抑皇菦]有能力為所有對我表示同意的人提供服務(wù)。所以我打算對其進行細分,然后到他們所在的地方去。
作為一名投資者,我所希望的是這種情況能持續(xù)下去,我們能保持穩(wěn)定,從而專注于這些方面。坦率地說,模型層的穩(wěn)定對于應用層來說是一個巨大的福音,主要是因為作為應用開發(fā)者,你坐在那里看著模型層每年都實現(xiàn)階躍式的飛躍。
而且你在某種程度上不知道該構(gòu)建什么,也不知道哪些是應該等待構(gòu)建的,因為顯然你希望它與模型層完全一致,因為模型層現(xiàn)在正轉(zhuǎn)向推理。這對于應用程序開發(fā)人員來說是一個很好的地方。
作為應用程序開發(fā)者,你知道的一件事是人類是沒有耐心的。因此,你需要始終構(gòu)建在性能和質(zhì)量方面優(yōu)化的解決方案。作為應用程序開發(fā)者,你不能對用戶說,比如,我打算提供一個高質(zhì)量的響應。
Patrick
在 30 分鐘內(nèi)......
Chetan
這只是需要更長的時間。這并不是一個有說服力的論點。現(xiàn)在,對于某些用途在那些情況下,這可行嗎?你能讓它在后臺運行 24 小時嗎?當然可以。
但這些用例并不普遍且占主導地位,人們也不太愿意購買這類東西。所以,如果作為應用程序開發(fā)者,在過去幾周里,我所有的董事會會議都是這些公司說,在這種新的推理模式下,我們非常有信心投資于這四件事,而在過去的一年半里,我們一直對這些投資非常猶豫,但現(xiàn)在我們要全力押注,我們的系統(tǒng)將會帶來巨大的性能提升。
Patrick
抱歉,為什么會是這樣?為什么推理這件事會讓他們的自信心增強,就像把原因解釋清楚一樣?
Chetan
嗯,如果你是一個應用程序開發(fā)者,你正在審視當今的模型,并且說道:“我能清楚地看到我的用例能從中獲得效率,但我得在這五個基礎(chǔ)設(shè)施層面的東西以及這些用戶界面的東西上投資。但如果一種新模型在六個月內(nèi)出現(xiàn),僅僅因為模型本身就能做到這一點,就把所有那些投資都打水漂了,那我為什么還要在這些東西上投資呢?”
我只是打算等待模型來完成,然后以此為依據(jù)。但在這個推理范例中,如果所有實驗室都追求推理,而推理是 y 軸上的智力,時間是 x 軸,這就是我們的發(fā)展方向,那么我在自己的工具中所做的任何改進,無論是由于我以算法方式提供推理的方式,還是我能夠獲取數(shù)據(jù)并進行處理等等這類事情,使得推理時間大幅縮短,我都應該現(xiàn)在就投資。
如果推理現(xiàn)在是新的范例,而在應用層針對這些推理模型進行最后一英里的交付意味著我正在構(gòu)建技術(shù)和使用工具,而這些是模型公司極不可能構(gòu)建的。隨著這些推理系統(tǒng)不斷改進,我的最后一英里優(yōu)勢和最后一英里交付系統(tǒng)仍然具有優(yōu)勢和可防御性。
Patrick
除了編程和客戶服務(wù)之外,你們倆還有其他最喜歡的例子嗎?這兩者似乎是眾多公司追捧的主要且令人難以置信的令人興奮和酷的用例。你們還有其他最喜歡的例子能適合《財富》雜志任何一家公司的首席信息官說“我們現(xiàn)在公司就需要這個”嗎?
Modest
Chetan愛他的所有孩子,所以他無法給你具體的例子。
Chetan
我可以給你 20 個。
Patrick
也許像“明確地”這類表述是我的問題所在。這里有編碼,本質(zhì)上還有自上而下的支持。
Chetan
看看企業(yè)軟件方面的最大支出,你可以用一個人工智能驅(qū)動、以人工智能為先的解決方案來應對。所以我們有一家很棒的公司叫 11X,它致力于銷售自動化。我們還有一家很棒的公司叫 Leya,律師們正在用它來大幅提高工作效率。我認為法律一直是一個非常有趣的問題,因為人們認為律師是按計費工時工作的。
如果你正在對計費工時進行自動化處理,難道其經(jīng)濟效益不會改變嗎?嗯,如今,兩年過去了,有證據(jù)表明,律師通過使用人工智能最終盈利大幅增加。原因在于,很多原本是機械性的、重復性的、困難的工作,過去是由律師事務(wù)所內(nèi)部的初級人員完成的,反正律師事務(wù)所也無法對這些工作計費。所以,如果你能將文件分析的時間從三四天縮短到 24 小時,突然間你就把所有律師解放出來,讓他們?nèi)プ鏊心苡嬞M的戰(zhàn)略性工作,以及那些對客戶極具價值的工作。
舉個例子,我們有一家正在實現(xiàn)會計自動化以及財務(wù)建模的公司。我們有一家正在改變游戲開發(fā)運作方式的公司。有人正在涉足電路板設(shè)計領(lǐng)域,這原本是一項極其人工化且耗費大量人力的事情,而計算機系統(tǒng)在這方面尤其擅長。最近,我們還投資了一個針對廣告網(wǎng)絡(luò)的項目。
這在初創(chuàng)企業(yè)中已經(jīng)是很久未被觸及的事情了,但事實證明,在人工智能世界中,將擁有庫存的人和想要做廣告的人進行匹配,效率要高得多。所以我們投資了一家擁有新文檔處理模式的公司,他們正在沖擊 OpenText。初創(chuàng)企業(yè)上次考慮 OpenText 是什么時候?已經(jīng)很久了,在這些巨大的現(xiàn)有 SaaS 市場被認為對新初創(chuàng)企業(yè)開放之前,已經(jīng)過了很長時間。
所以你必須追求更具利基性、更具垂直性的業(yè)務(wù)。我常開玩笑說,比如,我看到過這個,這是在東歐工作的現(xiàn)場工作人員的工資單。這是一家 SaaS 公司,在 2019 年你確實得考慮它。而現(xiàn)在,我們又回到了大片的橫向支出,比如,嘿,這里有一個現(xiàn)有的企業(yè),價值超過 100 億美元,這里的市場每年的支出是 100 億美元。
人工智能能讓這里的產(chǎn)品輕松地變得更好 10 倍、更快,以及具備所有用戶期望的特性。而要獲得這種優(yōu)勢,就需要一個新的平臺。這就是這個平臺的意義所在。
Modest
Patrick,在一開始你就問到了關(guān)于投資回報率(ROI)、資本支出(CapEx)以及所有這些的大辯論,當你聆聽奇普(Chip)的言論,當你聆聽應用層的其他投資者的言論,當你聆聽超大規(guī)模企業(yè)的言論時,過去三個月最重要的收獲是,用例正在涌現(xiàn)。沒錯,大家都知道編程,大家都知道客戶支持,但這確實開始滲透,并融入更廣泛的生態(tài)系統(tǒng)中。而且收入正在成為現(xiàn)實。關(guān)于投資回報率的問題,挑戰(zhàn)始終在于,好吧,你把資金投入這里,然后在投資期限內(nèi)對其進行攤銷,但與此同時,你又在為下一個模型投入下一筆資金。
因此,每個人都可以做出這些推斷并說:“哦,天哪,這不只是微軟在 2025 年將投入850 億美元的現(xiàn)金資本支出(包括租賃),而是這對 26 年、27 年、28 年意味著什么?”因為預訓練模型變得如此龐大,如果……而且,這又是一個假設(shè),即我們趨于平穩(wěn),并且在預訓練上花費的資金減少,將資金轉(zhuǎn)向推理。我們知道這筆支出即將到來,我們知道客戶的收入來源即將到來。
因此,說這筆支出是合理的就變得容易得多了。我認為重要的是,人們要記住這些公司潛在的陰云,這意味著僅僅是常規(guī)的存儲和計算仍在以兩位數(shù)的高位增長。所以,有一些資金需要分配到這方面。當你是一家業(yè)務(wù)增長 18%的千億美元企業(yè)時,你是一家業(yè)務(wù)增長 25%的 600 億美元企業(yè)。
這是六、九個月前大家都非常擔憂的增量資本。我個人從第三季度的數(shù)據(jù)中得出的看法是,好的,我明白了,這里有應用場景。推理正在進行。技術(shù)正在發(fā)揮其應有的作用。
推理的成本在驟降,利用率在飆升。把這兩者結(jié)合起來,你會得到一個不斷增長的可觀收入,一切都很好。薩蒂亞納德拉談到了這一點。問題在于,你為模型投入了資金,在推理方面得到了回報,但隨后我們又在為下一個模型投入資金。
如果我們能夠開始說,嘿,也許我們不會在接下來的 500 億美元上投入這個模型,那么投資回報率的計算看起來就會好得多。關(guān)于你問杰森的一個問題,即為什么模型層的穩(wěn)定性很重要?我認為薩姆阿爾特曼給出了正確的答案,那是六個月前,他在一個播客中說,如果你害怕我們的下一個模型發(fā)布,我們會把你碾過。如果你期待著我們的下一個模型推出,那么你就處于有利地位。
嗯,如果實際情況是下一個模型將在推理時使用,而非重新訓練,那么你可能就不必太擔心它們會失控。所以我認為,帕特,我們在這里談?wù)摰乃袃?nèi)容都非常有利于整個生態(tài)系統(tǒng)形成利的經(jīng)濟現(xiàn)實,這就是所有注意力資本都投入到推理上的原因。真正令人擔憂的是,我們是否需要花費 500 億、1000 億、2000 億美元來在預訓練中構(gòu)建這些更精確的模型?
一級市場估值向我們揭示了什么
Patrick
在哪些地方,價格最能反映極度的樂觀情緒或炒作?當然,我確實見過相當多的私募市場公司,比如說 A 輪類型的公司,它們的估值極高。它們往往是令人難以置信的團隊,非常令人興奮,但它們所在的領(lǐng)域,如果某樣東西行得通,你可以想象會有很多其他非常聰明的投資者為一些競爭對手提供資金。所以你會看到這些情況,比如很棒的團隊、高價格、高潛力的競爭,非常令人興奮,一切都發(fā)展迅速。
我很好奇,你們倆現(xiàn)在從估值和市盈率中讀出了哪些信號。
Chetan
在私人市場中,正在發(fā)生的事情之一就是計算價格的急劇下降,無論是推理還是訓練等等,因為計算變得更容易獲取了。如果你今天作為應用程序開發(fā)者坐在這里,與兩年前相比, 這些模型的推理成本下降了一百倍、兩百倍。坦率地說,這太離譜了。你從未見過成本曲線如此陡峭、下降得如此之快。
這是基于 15 年的云成本曲線得出的結(jié)論,這些成本曲線本身就已經(jīng)令人驚嘆和難以置信了。人工智能的成本曲線則完全處于一個不同的水平。我們之前看看我們在 2022 年資助的第一波應用公司的成本曲線。你看推理成本,在最新的前沿模型中,每百萬代幣大約是 15 到 20 美元。
而如今,大多數(shù)公司甚至都不會考慮推理成本,因為就像,嗯,我們把這項任務(wù)分解了,然后我們針對這些相當基礎(chǔ)的任務(wù)使用這些小型模型,而我們最前沿的模型所處理的大 多是這極少數(shù)的提示。其余的部分,我們只是創(chuàng)建了這個智能路由系統(tǒng)。所以我們的推理成本基本上為零。而這項任務(wù)的毛利率為 95%。
你只要看看這個,就會覺得,哇,思考應用增長利潤率的方式與我們在過去十年多時間里針對 SaaS 以及基本上針對軟件所做的完全不同。所以我認為,這就是你開始著眼于并思考的地方,即這些新的人工智能應用的整個應用堆棧。這要從提供推理的人員開始。要從工具和編排層開始。
所以我們有一家非常受歡迎的投資組合公司,叫做 LangChain,還有推理層,我們有 Fireworks。這類公司正被開發(fā)者大量使用。然后一直向上,到應用程序本身。我認為僅僅是創(chuàng)新的速度、商業(yè)成功的速度,就令私人投資者興奮不已。
模型穩(wěn)定性還有吸引人的地方在于,現(xiàn)在我們終于可以假定,如果這行得通,那么所有這些公司都將相當節(jié)省資金。因為如果你不必在預訓練上花費大量資金,如果你不必在推理上花費大量資金,因為大多數(shù)超大規(guī)模公司現(xiàn)在都會以這樣的成本為你提供非常可靠的 API,F(xiàn)在是從事應用開發(fā)業(yè)務(wù)的好時機,也是處于應用開發(fā)堆棧的好時機。
Patrick
Modest,你對估值有什么看法?
Modest
我認為,總體而言,你得從動物精神說起。如果你回到 ChatGPT 發(fā)布的前一周,也就是 2022 年秋季,科技行業(yè)可能剛剛經(jīng)歷了自互聯(lián)網(wǎng)泡沫破裂以來最殘酷的熊市。可以說,對于中位數(shù)的科技股而言,情況甚至比金融危機還要糟糕。一些規(guī)模非常大的成長型基金下跌了 60%、70%。
你曾目睹超級巨頭首次裁員。你曾目睹資本支出削減,運營支出削減。整個科技界乃至公開市場都彌漫著一種截然不同的氛圍。ChatGPT 的發(fā)布促使冒險精神再度興起,這是一個漸進的過程。
所以我認為,總體而言,公共市場存在大量的樂觀情緒,其中很多都與這樣一個主題相關(guān):我們正處于一個新平臺時代,對于許多不同的新概念,天空才是極限。所以,如果我們是對的,就存在這種全球性的懸而未決的情況。我認為,這歸根結(jié)底是要理解,如果資本性支出和超大規(guī)模運營商的運營成本與收入生成聯(lián)系得更加緊密,那么未來的新路徑會是什么樣子。如果你聽亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),他們說的有趣的事情之一是,他們稱 AWS 是一家物流企業(yè)。
我認為外界沒有人會審視云計算并說,哦,是的,那是一個物流業(yè)務(wù)。但他們的觀點本質(zhì)上是,他們必須做的是預測需求,并且必須在多年基礎(chǔ)上建立供應以滿足需求。
而且在過去的 20 多年里,他們在過去兩年所發(fā)生的事情上變得極其出色。上次我就談到,需求大幅增長,沖擊了缺乏彈性的供應,因為你無法在三個星期內(nèi)增加數(shù)據(jù)中心的容量。所以,如果能回到一種更具可預測性的需求節(jié)奏,讓他們能夠?qū)徱暡⒄f,好的,我們現(xiàn)在知道收入的來源在哪里。
這來自測試階段,來自Chetan及其公司推出的產(chǎn)品,F(xiàn)在我們知道如何將供應與之匹配,F(xiàn)在又回到了物流業(yè)務(wù)上,F(xiàn)在不是要把國內(nèi)每一個閑置的核電站都找出來并試圖讓其投入運營。
所以,我認為這并非是一種掠奪土地的行為,而是以一種更合理、明智、有條理的方式來進行。實際上,我猜如果這條路是正確的,那么這種推斷會比我們想象中更快地超越訓練,其效果會比我們可能預想的更大。
但我認為,在網(wǎng)絡(luò)設(shè)計中,這方面的路徑將會看起來大不相同,并且對于那些構(gòu)建網(wǎng)絡(luò)、為網(wǎng)絡(luò)提供動力以及通過網(wǎng)絡(luò)傳輸光信號的人來說,將會產(chǎn)生非常重大的影響。而所有這一切,我認為,在很大一部分公開市場的概率加權(quán)分布中,實際上尚未真正開始顯現(xiàn)。
而且你看,我認為大多數(shù)人過度關(guān)注英偉達,因為他們算是這方面的典型代表,但英偉達下游有很多人可能會遭受更大的損失,因為他們的業(yè)務(wù)較差。英偉達是一家出色的企業(yè),做著出色的事情。他們只是碰巧實現(xiàn)了盈余的大幅增長。我認為這帶來的影響遠遠超出了誰在制造最前沿的 GPU,盡管我確實認為,這種新的測試時間計算范例是否能讓芯片層面的定制化程度大大提高,這會存在疑問,也就是說,如果我們只是基于預訓練進行擴展,是否能實現(xiàn)更高的定制化程度。
但我認為,無論何時在正常對話中遇到這個問題,人們都過度關(guān)注英偉達。我覺得人們喜歡爭論那個特定的名字,但我認為在人工智能構(gòu)建的眾多衍生應用中,結(jié)果的分布已經(jīng)發(fā)生了變化,而這尚未得到體現(xiàn)。
Chetan
我只是認為,在測試期間以及從應用層的推理范例中思考這個問題是非常重要的,即你的提示中有多少實際上將推理作為回應這些提示的一種方式。而且,沒錯,隨著這項技術(shù)變得更加可用和易用,應用程序開發(fā)人員對其的使用會比現(xiàn)在多得多。
但是,如果你只是看看當前的技術(shù),以及已經(jīng)從應用層獲得的驚嘆之處,那么會有多少百分比的提示或查詢會使用推理呢?很難隨便估計一下就說會有 90%的查詢會使用推理。
這似乎不會是那樣的,因為再說一次,你的用戶是不會等待的。人類天生就沒耐心,而你有一個解決方案,只是空轉(zhuǎn)著,還以為你的用戶已經(jīng)走了。不管他們處于哪個領(lǐng)域,他們都走了。所以,沒錯,可能會有某些特定任務(wù)需要很長時間才能完成,并且能實現(xiàn)高精度。
但到目前為止,速度是這些應用程序開發(fā)者最重要的考慮因素。那么,我們是否會擁有一個系統(tǒng),不斷回溯、反復利用所有這些計算能力,而在哪些市場份額的查詢中使用這些能力呢?很難想象這會是絕大多數(shù)的查詢。那么,至少從私人市場、早期投資者的角度來看,這意味著什么?除了我自己的領(lǐng)域,我很難想象這會對其他任何東西產(chǎn)生什么影響。
但這其中的含義僅僅是,你在訓練時所需的計算量遠不如訓練時那么多。訓練只是一項持續(xù)的工作。你在不斷擴展,并且一直在充分發(fā)揮所有的計算能力,只是在應用層進行,這極其突兀。你會有一些任務(wù)需要立即大量處理,而很多時候你其實并不需要那么多。
因此,這再次證明了超級巨頭以及像 EC2 和 S3 這樣的服務(wù)是多么出色。在這個新世界中,超級巨頭提供的解決方案確實非常棒。我認為亞馬遜的培訓以及谷歌的 TPUs確實非常出色,它們?yōu)殚_發(fā)者提供了絕佳的體驗。我認為對于應用程序開發(fā)者來說,眾所周知的部分情況是,在這個用例中,使用 GPU 確實非常困難。
要讓連接在一起的 GPU 實現(xiàn)最大利用率,無論你是從戴爾購買還是從超大規(guī)模運營商購買,都真的很難使用。但隨著新的軟件創(chuàng)新,這顯然會得到改善。而且超大規(guī)模運營商自身推出的產(chǎn)品,真的非常非常棒,在進行測試階段的計算時,你根本不需要像訓練時那樣大力投入。
Modest
我認為這在 GPU 的利用方面是一個非常重要的點。如果你考慮一項訓練任務(wù),你試圖在很長一段時間內(nèi)以盡可能高的百分比利用它們。所以你試圖在一個地方放置 50 萬、100 萬個芯片,并以盡可能高的速率利用它們長達九個月。剩下的是一個十萬個芯片的集群,如果你要將其重新用于推理,可以說這不是最有效的構(gòu)建,因為推理是峰值和突發(fā)性的,而不是持續(xù)的。
所以這就是我正在談?wù)摰,我只是認為從第一性原理出發(fā),你將重新思考你希望如何構(gòu)建基礎(chǔ)設(shè)施,以服務(wù)于一個比訓練更側(cè)重于推理的世界。詹森已經(jīng)談到了英偉達的美妙之處,即你留下了這種現(xiàn)成的基礎(chǔ)設(shè)施,隨后就可以加以利用。
在這個沉沒成本的世界里,你可能會說,當然,如果我被迫建造一個包含一百萬個芯片的超級集群來訓練一個價值五百億美元的模型,那我完成后當然可以把這個資產(chǎn)當作汗水揮灑掉。但從第一性原理來看,顯然,你絕不會為了滿足Chetan所談?wù)摰哪欠N需求,而建造一個功率達 2.5 吉瓦的 35 萬個芯片的集群。
因此,如果你最終擁有低延遲和高效率的更多邊緣計算,這對光網(wǎng)絡(luò)意味著什么?對電網(wǎng)意味著什么?對現(xiàn)場電力需求與從當?shù)毓檬聵I(yè)獲取電力的能力意味著什么?我認為這些是我非常有興趣閱讀的問題類型。
但到目前為止,很多分析仍然集中在我們點燃三里島時會發(fā)生什么,因為新的模式確實還為時尚早。
半導體領(lǐng)域仍需創(chuàng)新之處
Patrick
你認為,盡管在半導體領(lǐng)域會有大量的創(chuàng)新,但我們是否仍然需要并且將會看到這些創(chuàng)新呢?無論是網(wǎng)絡(luò)方面,無論是光學方面,還是芯片本身,不同類型的芯片。
Modest
我想這會進一步加速這一進程,因為很難預見一個在訓練中就采用大規(guī)模綠色能源的世界。在我看來,數(shù)百年來,先是出現(xiàn)淘金熱、圈地熱,每個人都只顧著眼前。但在技術(shù)領(lǐng)域,隨著一些穩(wěn)定性的形成,會進入一個優(yōu)化期。在推理方面,你們已經(jīng)經(jīng)歷了這樣一個時期。
Chetan所指的是,人們有時間優(yōu)化計算機中的底層算法,推理錯誤率下降了 99%。這與互聯(lián)網(wǎng)泡沫末期互聯(lián)網(wǎng)傳輸?shù)那闆r相同,當時人們說,不,你絕不可能在線播放電影。你知道這要花多少錢嗎?而傳輸成本在 20 年里每年都像鐘表一樣準時下降 25%。
該業(yè)務(wù)的實際利潤池在 20 年內(nèi)保持不變。所以我認為,我們經(jīng)歷了這種瘋狂的需求激增,而且我覺得,如果我們能稍微穩(wěn)定下來,讓每個人都能喘口氣,就會有兩個人在車庫里對一切可能優(yōu)化的方面進行優(yōu)化。從長期來看,這就是技術(shù)的魅力所在,它是通貨緊縮的,因為這是一個優(yōu)化問題,但在瘋狂搶占市場的時候,你就沒時間優(yōu)化了。上次我跟你說過這話。
數(shù)據(jù)中心行業(yè),它們在電力方面是中性的。整個數(shù)據(jù)中心業(yè)務(wù)對電力的需求增長在五年內(nèi)都沒有增長。這是因為當時處于云數(shù)據(jù)中心建設(shè)的完全成熟階段。我不知道你們何時會達到那個階段。
我的意思是,我們知道這些至少在 2026 年或 2027 年之前還有三四年時間的人,會全力以赴地進行建設(shè)。
在什么時候,每個人都會有時間深吸一口氣并說,好的,現(xiàn)在讓我們想辦法如何更高效地運行這些?這就是事物的本質(zhì)。在計算方面也是如此。我只是認為,我們還沒有達到技術(shù)人員能夠應用他們的優(yōu)化的程度。他們一直在進行實施。
Chetan
我會給你們提供幾個我這邊的一些數(shù)據(jù)點。我的合作伙伴埃里克是一家出色的半導體公司 Cerebras 的董事會成員,他們最近宣布,Cerebras 的 Llama 3.1 能夠每秒生成超過 4050億個推理結(jié)果,每秒能生成 900 多個令牌,這是一個數(shù)量級的大幅增長。我認為,舉例來說,這比 GPU 的推理速度快 70 到 75 倍。所以,當我們進入推理世界、半導體層、網(wǎng)絡(luò)層等等,初創(chuàng)企業(yè)有大量的機會真正使自己與眾不同。
然后我要提出的第二件事是,我最近剛和一家大型金融服務(wù)機構(gòu)的首席信息官交談過,他說在過去兩年里,他們預先購買了很多圖形處理器(GPU),因為他們認為會有很多人工智能應用。
工作負載,誰知道他們自己是不是需要做些培訓。所以這些系統(tǒng)現(xiàn)在正被安裝到他們的數(shù)據(jù)中心,并且已經(jīng)上線,在這個世界里,你不需要自己創(chuàng)建模型。即使你創(chuàng)建了,也只是對開源模型進行微調(diào)。這沒那么復雜。
所以他的觀點是,你看,如果你有人工智能應用程序在本地運行,那基本上是免費的。我有所有這些容量,我根本沒用它來做任何事。推理很輕量,所以目前我有無限的容量在本地運行人工智能應用程序,而且這不會讓我增加任何邊際成本,因為所有這些東西都已啟動并運行,而我根本沒用它來做任何事,所以我準備購買。
所以,不僅你所談?wù)摰乃羞@些應用事物令人極其興奮,因為它們能釋放投資回報率以及所有相關(guān)的東西,而且一旦你能在我們的設(shè)備上運行其中任何東西,這會極大地降低我們的成本。
所以,當你擁有這樣的東西時,到處都是贏贏贏的局面。這就是當前的狀況。那么,這種產(chǎn)能過剩會持續(xù)多久呢?應用程序開發(fā)者以充分利用所有容量并突破極限而聞名,突然之間,曾經(jīng)過剩的容量最終會變成不足的容量,因為突然之間,我們進行了廣泛的建設(shè),然后決定在上面?zhèn)鬏斠曨l。
當然,人工智能應用會變得愈發(fā)復雜,并消耗掉所有這些容量。但從投資的角度來看,這是一個更具可預測性、更理智的世界,而不是在預訓練的情況下無限擴展。
Modest
我好奇并想要關(guān)注的一件事是:重要的是要記住,報告并不是說模型沒有在改進而是說模型相對于預期或者應用于它們的計算量而言沒有改進。所以我認為,我們確實需要謹慎地得出實驗室不會繼續(xù)努力去破解難題的結(jié)論。
在預訓練方面,我認為問題在于,其一,我們應該尋找什么?但其次,如果他們繼續(xù)沿著那個方向推進,我們是否相信,而這一直是我苦苦思索的問題,即如果在預訓練中縮放定律成立,人們是否愿意花費 1000 億美元?
而且我知道,人人都說如果你是為了終極大獎而戰(zhàn),你肯定會這么做,但是已經(jīng)有足夠多的質(zhì)疑聲音出現(xiàn),即單純的暴力破解式預訓練就是通向終極解鎖的途徑嗎?還是說現(xiàn)在是預訓練、后訓練和測試時計算的某種組合?在這種情況下,同樣,我認為世界上的情況只是,從數(shù)學角度來看要合理得多。而且我看到了很多評論,說人們宣稱人工智能的發(fā)展已經(jīng)終結(jié)等等。
希望今天能從中得到的啟示是,我認為那些真正深入研究這個問題的人不會這么說。人們會說人工智能正在全速推進。我認為問題在于進步的軸心究竟是什么。在我看來,從我的角度來看,這種說法似乎更合情合理。
走這條道路似乎要合理得多,而不是預先花費任何可能的金額來建造這個假設(shè)的上帝。所以我認為,如果我們最終走上這條路,這會是一個好得多的結(jié)果。
Patrick
我很好奇你認為在整個事件中,如果有的話,最缺乏討論的部分是什么。有沒有什么事情你發(fā)現(xiàn)自己思考得比從朋友和同事那里聽到的討論要多得多?
Chetan
在公共投資者方面,僅僅閱讀賣方報告,而我們看到的是賣方報告或分析,即關(guān)于這種新的測試時間計算范例意味著什么以及情況如何變化的內(nèi)容。所以我真的期待著關(guān)于這種新范例轉(zhuǎn)變的更多賣方分析。我認為在私募市場中的相關(guān)報道也很少。
我認為,與這些企業(yè)家會面的人們所了解到的是,這些企業(yè)家如今在前沿領(lǐng)域的投入是多么高效。而這是最近才發(fā)生的轉(zhuǎn)變。你會看到人們只需投入不到一百萬美元,就能在特定的用例中,而非廣泛地,與前沿模型在性能上相媲美。而這是兩年前甚至一年前我們都未曾見到的。
Modest
預先訓練是對資本主義的一次重大考驗。如果我們沿著這條道路走下去,我覺得從微觀經(jīng)濟背景去分析將會發(fā)生什么要好得多,因為你不必考慮上帝的內(nèi)在價值。我只是覺得,就我期待閱讀和聽到的內(nèi)容而言,這要好得多。是的,我倒是希望看到有思想的內(nèi)部分析師真正努力應對......
目前我覺得這有點防御性的意味。人們在為規(guī)模未擴大而只是轉(zhuǎn)移這一事實進行辯護。這固然不錯。但現(xiàn)在我們得研究一下二階效應、三階效應。
那么這究竟是如何體現(xiàn)的呢?我認為這對整個生態(tài)系統(tǒng)、整個經(jīng)濟非常有利。但我認為,會有很多盈余從之前看似贏家的地方轉(zhuǎn)移出來,而那些看似輸家的地方則會出現(xiàn)大量盈 余。
Patrick
在接下來的六個月里,什么樣的結(jié)果會讓你感到最迷茫?
Chetan
嗯,從積極的方面來說,有兩個引人注目的例子:如果有人拿出成果,表明預訓練又重新流行起來,并且在合成數(shù)據(jù)方面取得了巨大突破,突然之間,事情就啟動了,再次啟動。價值十億美元和一百億美元的集群又會回到談判桌上。你會回去,但突然之間,范式轉(zhuǎn)變會非常驚人。突然之間,我們現(xiàn)在會談?wù)撘粋價值一千億美元的超級集群,它要進行預訓練。
那么很顯然,如果我的預期成真,即明年我們將實現(xiàn)通用人工智能,我們將擁有通用人工智能,而且我們正在建造一個價值一千億美元的集群,因為我們在合成數(shù)據(jù)方面取得了突破,一切都行得通,我們可以模擬一切。
我認為另一種情況是,現(xiàn)在非常清楚的是,雖然我們已經(jīng)用盡了關(guān)于文本的數(shù)據(jù),但我們遠未用盡關(guān)于視頻和音頻的數(shù)據(jù)。而且我認為,這些模型在新形式的模式上的能力仍待確定。所以我們就是不知道,因為此前重點并未放在那里。但現(xiàn)在你開始看到大型實驗室更多地談?wù)撘纛l和視頻。
從人類交互的角度來看,這些模型將能夠?qū)崿F(xiàn)什么,我認為這將會相當驚人。我認為你們已經(jīng)看到了圖像生成和視頻生成方面有了多大的飛躍。而一年后、兩年后的情況會是怎樣,可能會令人非常難以置信。
Modest
是的,我認為對于非技術(shù)專家來說,困難的部分在于,在過去的一年到一年半的時間里,問題一直是如果遵循縮放定律,GPT - 5 會帶來什么?沒有人能夠真正清晰地闡述出來,因為我們所知道的是,好的,訓練損失會降低。所以你會說,好的,這個東西在下一個標記預測面會更準確。但從能力的角度來看,這到底意味著什么?
在發(fā)布之前,我們未曾意識到的新興能力是什么?所以我認為,除非實驗室站出來說,它的準確性非常好,值得繼續(xù)沿著這種對數(shù)線性規(guī)格化的軌跡發(fā)展。如果有人這么說,我想,不管整個討論的情況如何,也不管你可能相信什么,你都得說,好吧,這種情況又出現(xiàn)了。我只是認為,你必須保持超級開放的心態(tài)。
如果我們?nèi)齻月前進行這場對話,當時會有私下里的議論,但不會公開討論。我只是認為你必須不斷更新你的先驗知識。所以,顯然,就像杰森所說,我會尋找那樣的東西。就我個人而言,我密切關(guān)注 Llama。
顯然,在某個時候存在這樣一種風險,即他們決定不再保持開源。如果我是生態(tài)系統(tǒng)中的其他參與者,我會竭盡全力確保 Llama 保持開源。而且,要實現(xiàn)這一點,是有一定辦法可行的。
但我認為這只是一方面,因為他們在前沿投入的意愿,以及像他們那樣提供那些模型的方式,我認為已經(jīng)徹底改變了模型行業(yè)的戰(zhàn)略動態(tài)。所以這是我會關(guān)注的另一個方面。
關(guān)于通用人工智能(AGI)及后續(xù)發(fā)展的思考
Patrick
在我們接近討論尾聲的時候,我有一個哲學方面的問題,是關(guān)于人工智能超級智能(ASI)。所以,如果通用人工智能(AGI)已經(jīng)存在或者明年就會出現(xiàn),你們兩位究竟會如何看待它?我想這建立在之前關(guān)于我們究竟對停留在縮放壁壘上的 GPT-5 有何期望的討論之上。這意味著什么?
因為至少在簡單的聊天互動中,我能想象到它能做得好得多的事情越來越少了,甚至都不知道那會是什么樣子。而且,我們可能還只是處于應用程序開發(fā)、微調(diào)、改進、算法更新等等的早期階段。
所以我很好奇,從哲學角度來說,對于超出我們天生所擁有的東西,你認為關(guān)鍵的檢驗標準會是什么,或者可能會有什么,因為現(xiàn)有的模型在不斷調(diào)整、優(yōu)化和改進。人工智能究竟意味著什么?
這是否意味著它解決了此前不可能解決的數(shù)學或物理難題,還是其他什么情況?
那個想法對你們倆來說意味著什么?
Chetan
這些都不是我的話。我不記得最初是誰說的,但人類真的很擅長改變對期望的標準。 20 世紀 70 年代的人工智能所代表的意義與 80 年代、90 年代、21 世紀初以及 2024年的意義是不同的。所以,如果一臺計算機能夠做到某件事,人類就會有一種很好的
方式將其描述為自動化。而計算機做不到的任何事,現(xiàn)在都會成為人工智能的新標準。
所以我認為,這些系統(tǒng)已經(jīng)極其智能,在復制人類智能方面表現(xiàn)出色,有時甚至超越人類智能。我認為,如果你看看像 DeepMind 這樣的一些模型開發(fā)者以及幾家初創(chuàng)公司在數(shù)學、物理和生物學等領(lǐng)域所走的道路,就會非常清楚,這些模型的應用和輸出將會是人類以前根本無法做到的事情。我們已經(jīng)看到,在蛋白質(zhì)折疊等方面就是如此。
今天,我們開始看到一些與之相關(guān)的東西,這涉及到數(shù)學證明。我有信心,這也會涉及到物理證明。所以我對人類的樂觀希望是,我不知道,我們能夠打開蟲洞之類的東西,我們將能夠以前所未有的規(guī)模研究廣義相對論,研究黑洞,或者以我們以前無法做到的方式模擬黑洞。
此刻,所有這一切聽起來都有點荒謬,但就目前事情的進展方式以及已經(jīng)發(fā)展的方式而言,我們并不知道什么是有可能實現(xiàn)的,什么是不可能的。
再從投資者的角度來看,當面對未知的未來,可能性取決于你的想象力時,這通常是早期投資者的好時機,因為這意味著技術(shù)已經(jīng)解鎖。通常,當技術(shù)以驚人的方式解鎖時,分銷也會隨之解鎖,此時你就可以去獲取那些曾經(jīng)非常昂貴的客戶了。
所以以前,如果你想開發(fā)一個消費類應用程序,你就得把應用商店的稅費、搜索廣告網(wǎng)絡(luò)以及所有這類東西都考慮在內(nèi)。而突然間,這只是在單位經(jīng)濟學方面很快就能完成的工作。
同樣,在軟件即服務(wù)(SaaS)領(lǐng)域,情況類似于 A)生產(chǎn)力、毛利率和基礎(chǔ)設(shè)施成本。你只是試圖進行電子表格操作,早期投資開始變得更像電子表格操作,而非真正的技 術(shù)創(chuàng)新。我認為,當你有這樣重大的突破時,一切都又會發(fā)生某種變化。分銷近乎免費。
如果你擁有獨特的東西,并且它具有口碑和病毒式傳播的因素,那么技術(shù)支出實際上又會回到僅僅投資于你的開發(fā)人員、你的科研人員以及研發(fā)上,研發(fā)帶來的投資回報率又會開始變得顯著。作為早期投資者,最令人興奮的是,我們并不知道未來的情況,因此又回到了人類的創(chuàng)造力和人們能夠突破這些界限上。
Modest
對于早期投資者來說這令人興奮,但我覺得對于有點懷疑的公開市場投資者來說這很可怕。價格是基于感覺而非數(shù)學計算得出的。在關(guān)于 ASI 的電子表格中,我想我們之前已經(jīng)討論過這個概念了。這就是人們花費如此之多的原因。
在這上面花費很多時間是因為它太深刻了。
最終,有些人對我們正在建設(shè)的東西持有近乎宗教般的看法。每當這種情況出現(xiàn),我認為風險就會更高。這有點難以捉摸,而且超級復雜。所以我們都喜歡對此進行辯論。
但我認為這里有一件事我們尚未提及,那就是有一群人相當熱切地相信,在某個時候會出現(xiàn)遞歸式的自我提升。而且我認為,無論假設(shè)中的 ASI 意味著什么,這都將是一條重要的突破路徑,即當機器足夠聰明,能夠自我學習和自我教導的時候。
從不那么戲劇性的角度來看,我是這樣思考這個問題的,有阿爾法圍棋(AlphaGo),它做出了那個從未有人見過的走法,我想那是第 37 步,大家都超級困惑,但它最終贏了。另一個我喜歡的例子是諾姆布朗(Noam Brown),因為我喜歡撲克,他談到了他的撲克機器人,它是在高賭注、無限制的游戲中,不斷下注的金額大幅超過專業(yè)人士以往所見過的規(guī)模。
他認為這個機器人犯了個錯誤。最終,它極大地破壞了專業(yè)人士的穩(wěn)定性。想想看。一臺計算機破壞了人類在其方法上的穩(wěn)定性,以至于他們在一定程度上現(xiàn)在在比賽中過度下注。
所以這是兩個例子,如果我們認為預訓練受到我們所給定數(shù)據(jù)集的限制,如果我們沒有合成數(shù)據(jù)生成能力,這里有兩個例子,算法在人類知識的范圍之外做了一些事情。而這一直讓我對大型語言模型本身就能達到超級智能這一觀點感到困惑,因為從功能上講,它們受到我們預先給定數(shù)據(jù)量的限制。
所以,如果你有這樣的例子,即算法能夠超出其最初所受的限制,那是非常有趣的。我還沒聰明到知道這會將我們引向何方,但我覺得接下來要思考的是,如何擺脫預先給定的限制?
Chetan
在我看來,我認為了不起的是,這種創(chuàng)新在美國發(fā)生的程度,以及在硅谷發(fā)生的程度。自疫情以來,我們經(jīng)歷了艱難的幾年,這真的令人驚嘆。我有一位不在硅谷的投資朋友,他只是說,真不敢相信這又在硅谷發(fā)生了。它已經(jīng)成為了這樣一個燈塔,所有的實驗室都集中在這里。
很多從事這些應用程序、這些基礎(chǔ)設(shè)施公司等等的人都在這里,即便他們不在這里, 也以某種方式與這里有關(guān)聯(lián),并且經(jīng)常來這里訪問。我想說,這里對創(chuàng)新的關(guān)注確實非常出色。在人工智能方面,美國,特別是硅谷所取得的進展非常顯著。我確實認為,投資者和企業(yè)家現(xiàn)在關(guān)注的一個程度是,這個體系是多么脆弱,以及我們需要在多大程度上保護它并繼續(xù)對其投資。
而且我認為現(xiàn)在有很多關(guān)注點在于創(chuàng)新是需要受到保護的東西。并且我覺得很多人現(xiàn)在都在投入大量精力以確保在美國發(fā)生的所有這些創(chuàng)新繼續(xù)造福所有人。我認為這是一個非常樂觀且令人欣喜的認知。
Modest
如果報告屬實,聚集效應是真實存在的!禩ransformer》論文得以問世的方式是,有人在走廊里滑著旱冰,聽到兩個人在談?wù)撃呈,便走進去,在白板上書寫,又有兩個人過來,誰知道其中有多少是虛構(gòu)的呢。
但從經(jīng)濟學家的角度來看,令人著迷的是,這些人類網(wǎng)絡(luò)效應是真實存在的,新冠疫情沒有摧毀它們,居家辦公也沒有摧毀它們,而且人們相聚在一起、思想的融合、多學科的匯聚來構(gòu)建這種改變世界的架構(gòu),確實有其切實的東西。
Patrick
伙計們,和你們倆聊天總是很愉快。能私下進行這次交流我很幸運。在公開場合進行也很有趣。感謝你們抽出時間。
Modest
當然。
Chetan
謝謝你!
本文來自華爾街見聞,歡迎下載APP查看更多