當前位置：人工智能實驗室> 人工智能動態(tài) > OpenAI o1如何延續(xù)Scaling Law

OpenAI o1如何延續(xù)Scaling Law
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-22 07:28:46 瀏覽：4097次

導(dǎo)讀：如果每天和開發(fā)者打交道，你不會感覺這個行業(yè)停滯或變冷。文丨程曼祺賀乾明《晚點聊 LateTalk》是《晚點 LatePost》推出的播客節(jié)目，在文字報道之外，用音頻訪談形式捕捉商業(yè)世界變化的潮流和不變的邏輯，與這其中的人和故事。 OpenAI 發(fā)布新模型 o1 后...

OpenAI o1如何延續(xù)Scaling Law

“如果每天和開發(fā)者打交道，你不會感覺這個行業(yè)停滯或變冷。”

文丨程曼祺賀乾明

《晚點聊 LateTalk》是《晚點 LatePost》推出的播客節(jié)目，在文字報道之外，用音頻訪談形式捕捉商業(yè)世界變化的潮流和不變的邏輯，與這其中的人和故事。

OpenAI 發(fā)布新模型 o1 后的第二天，我們邀請了硅基流動創(chuàng)始人袁進輝與我們分享了 o1 的技術(shù)意義，也討論了今年 1 月至今，袁進輝觀察到的 AI 開發(fā)者社區(qū)變化。

o1 的一個重要變化就是增加了分配給推理（inference，即大模型的使用）階段的算力，推理階段計算（test-time compute）重要性提升。

而袁進輝今年初創(chuàng)立的硅基流動（SiliconFlow）就是一家做推理加速優(yōu)化的 AI Infra（中間層軟件）公司。他是一位連續(xù)創(chuàng)業(yè)者，曾在 2017 年創(chuàng)立一流科技（OneFlow），在 2023 年加入王慧文組建的大模型創(chuàng)業(yè)公司光年之外，成為聯(lián)合創(chuàng)始人。（袁進輝的上兩段創(chuàng)業(yè)故事，可聽《晚點聊 LateTalk》第 58 期。）

o1 打破了一個預(yù)期過去，在大語言模型范式下，模型在解決邏輯推理問題時遇到了瓶頸。而 o1 通過 3 個技術(shù)方法，顯著提升了模型的邏輯推理能力，包括：

強化學習，也就是 RL（Reinforcement Learning）

chain of thought，也就是思維鏈

還有 test-time compute 或者 inference-time compute，也就是在推理階段分配更多計算資源。

o1 在科學、數(shù)學和編程等需要更多邏輯能力的任務(wù)上都有很大提升。

袁進輝在這期播客里比較通俗地解釋了上述技術(shù)方法是怎么發(fā)揮作用的；我們也討論了，o1 的這些新技術(shù)特性，對算力消耗量，行業(yè)應(yīng)用和其它 AI 公司動作的影響。

硅基流動直接服務(wù)大量開發(fā)者。與很多人的觀點不同，袁進輝說，在應(yīng)用開發(fā)端，他沒有感到 AI 熱潮的冷卻，只是現(xiàn)在涌現(xiàn)出的很多開發(fā)者是小微企業(yè)甚至是個人開發(fā)者，他們不在傳統(tǒng) VC 的視野里：“如果每天和開發(fā)者打交道，你不會感覺這個行業(yè)停滯或變冷。”

所以一方面，創(chuàng)投市場覺得 AI 應(yīng)用的爆發(fā)不如預(yù)期，另一方面，實際調(diào)用量也在快速增長。

袁進輝還分享了一些一手數(shù)據(jù)，比如硅基流動自己的客戶，調(diào)用最多的開源模型是阿里巴巴的通義千問（Qwen 開源系列）、幻方的 DeepSeek，和 Meta 的 Lamma，Qwen 的優(yōu)勢是不同規(guī)模模型版本齊全，DeepSeek 則有突出的編程能力。

以下我們摘錄了播客中的部分內(nèi)容：

強化學習、思維鏈，每一個 idea 都不是石破天驚，但 OpenAI 做了最好的組合

《晚點聊》：看到 o1 發(fā)布是什么感覺，哪些部分超出預(yù)期？

袁進輝：這個提前已有多次消息泄露，有一些預(yù)期已經(jīng)支出了。o1 兌現(xiàn)了之前的承諾，就是用合成數(shù)據(jù)、強化學習等方法在 reasoning （邏輯推理）能力上有突破，數(shù)理能力、編程能力都有較大提升。

《晚點聊》：你覺得這是個什么量級的變化？openAI 稱其為新階段（new level）。

袁進輝：一般會認為大模型有三層能力：一是對語言的掌握語言生成得流暢不流暢、地道不地道；二是對常識或世界知識的掌握比如知道一些交通規(guī)則。之前的大模型，不管 GPT 還是其他開源模型，這兩個能力都做得非常好了。

但還有一層，是考驗智商的部分，我們叫邏輯推理或 reasoning，這一塊公認做得不夠好，也有人說這限制了 agent（智能體）的發(fā)展。

而這次 o1 用一套行之有效的方法論把 reasoning 能力提高了一大步，能解決相當多問題，確實讓大語言模型能力往上邁了一個臺階。

《晚點聊》：今年 7 月，Google DeepMind 發(fā)布了 AlphaGeometry 更新版，也使用了強化學習，它差一分就可以拿到 IMO（國際數(shù)學奧賽）金牌。但相比 o1，好像沒那么多人討論，這是為什么？

袁進輝：AlphaGeometry 等 Alpha 家族，就是 AlphaGo、AlphaProof、AlphaCode 等等，這些在大模型之前幾年已經(jīng)發(fā)生了就是用強化學習，讓模型解決某一個規(guī)則非常清晰的領(lǐng)域的問題，模型可以做得比人好，所以這個 “wow” 時刻在 AlphaGo 時（2016 年）已經(jīng)有了。

然后下一個 wow 時刻是 ChatGPT，也就是 GPT-3.5，大家發(fā)現(xiàn)模型能把語言問題和世界知識也解得非常漂亮。

而現(xiàn)在這個 wow，是在 GPT 上疊加了 Alpha 家族的方法論，打破了之前有一種預(yù)期，認為在大語言模型范式下，專業(yè)問題比通識問題更難。

同時從應(yīng)用價值看，大模型在邏輯推理能力上的突破也可能明顯促進 agent 發(fā)展。之前 agent 跑不通，主要就是受限于模型的邏輯推理能力。

《晚點聊》：我們來拆解一下 o1 使用的技術(shù)，這次 OpenAI 提到了強化學習、思維鏈（chain of thought,CoT）、test-time compute（測試時間計算）等新方法。它們是怎么發(fā)揮作用的？

袁進輝：無論大語言模型還是強化學習，都是 “統(tǒng)計學習”，也就是數(shù)據(jù)里有什么，模型才能學到什么，數(shù)據(jù)里沒有，或數(shù)據(jù)里不充分的比如某種規(guī)律或 pattern（模式）出現(xiàn)的頻率不夠高，模型就學不到或?qū)W不好。

你提到的這些方法都是基于這條原理衍生的。其中強化學習的重要作用是生成專業(yè)性數(shù)據(jù)，因為自然語言語料大多數(shù)是通識類、消費向數(shù)據(jù)，專業(yè)數(shù)據(jù)不夠。

強化學習怎么生成數(shù)據(jù)？以 AlphaGo 為例，它自己構(gòu)造了一個博弈環(huán)境，讓 AI 自己和自己下棋，中間會形成很多博弈軌跡（trace），這些數(shù)據(jù)可以補充到訓練數(shù)據(jù)里。

同時強化學習有一個基本環(huán)節(jié)是反饋，AI 和環(huán)境交互后，環(huán)境會給反饋，正向后果要給激勵（reward）。如果是規(guī)則特別清晰的領(lǐng)域，構(gòu)造這個反饋環(huán)路更容易，比如 AlphaGeometry 解數(shù)學問題，答案正確就給激勵。而另一些場景里，構(gòu)造反饋環(huán)路就比較難，比如自動駕駛肯定也有仿真環(huán)境，但總有一些 corner case，仿真環(huán)境沒法覆蓋，那得到的反饋就不夠真實，訓練出的 AI 就有缺陷。

所以有清晰規(guī)則的問題，容易用強化學習；越不知道怎么描述勝負和評判對環(huán)境產(chǎn)生后果的場景，越難用強化學習。現(xiàn)在相當于是把清晰規(guī)則場景里已驗證的一套方法，拿到了大語言模型里，還能解決看起來比 AlphaGo 更泛化的問題，所以它是一個進步。

《晚點聊》：思維鏈發(fā)揮什么作用？很多人把它形容為 “像人一樣思考”。

袁進輝：其實也是解決數(shù)據(jù)問題。原始自然數(shù)據(jù)里，語言也好，圖像也好，最充分的 pattern 是那些微觀、細粒度的東西，比如一個像素旁邊的另一個像素是什么，一個詞后面的一個詞是什么。但那些更宏觀、抽象層次更高的東西，更粗略的結(jié)構(gòu)，通常在自然數(shù)據(jù)里是不充分的。

所以之前的語言模型，已經(jīng)可以勝任局部生成或一個簡單的邏輯推理；但中間包含較多步驟的、宏觀的、復(fù)雜的問題就超出它的能力，因為它見過的這種數(shù)據(jù)太少。

Chain of Thought 其實就是給大語言模型一些提示，讓它把一個宏觀問題分解成小步驟，每個小步驟之內(nèi)，是原來的模型妥妥能做好的。

但 o1 可能還多做了一些東西，就是強化學習的訓練架構(gòu)下，也生成了一些宏觀的 chain of thought 策略數(shù)據(jù)，把他補充到語料里。所以強化學習和思維鏈，它們一定程度是正交的，強化學習可以幫助合成一些宏觀的、總結(jié)的數(shù)據(jù)。這是一種猜測，沒有確認。

《晚點聊》：那么一開始怎么定下拆分步驟的策略呢？

袁進輝：最早的思維鏈是人通過 prompt 來提供問題分解，AI 做不了�，F(xiàn)在應(yīng)該可以抽取一些通用的求解策略，也就是用規(guī)則方法，比如計算機里有一些基本算法可以把大問題分解成小問題，這些方法可能只有十幾個，已能解決絕大部分可用計算機解決的問題，相當于有套路。

當然還有一種更優(yōu)雅、泛化能力更好的方法，就是在拆解步驟的層面也訓練一個模型，用模型來篩選思維鏈。

現(xiàn)在都是猜測，我覺得 o1 訓練時，應(yīng)該是加入了思維鏈層面的這種合成數(shù)據(jù)，但在 inference 時，有可能這個思維鏈還是規(guī)則系統(tǒng)，不是一個模型。

如果是一個稍微復(fù)雜一點的規(guī)則系統(tǒng)，沿著決策樹，會試探再回退如果往前想了一步不對，會回退到上一步再試探其它路徑，我懷疑 o1 在推理時還沒做到這個。

《晚點聊》：o1 發(fā)布時，OpenAI 沒有向用戶展示原始的思維鏈，并說這是幾經(jīng)考慮的選擇。

袁進輝：它如果展示了這個，就相當于展示了技術(shù)秘密，其他人可以更好地去分析它到底怎么做的。

《晚點聊》：OpenAI 自己說主要是出于安全原因，還有避免用戶被操縱。

袁進輝：那也是，因為如果放出思維鏈，外界就能更好地去 hack 它，或者做越獄嘗試。

《晚點聊》：我們可以繼續(xù)聊 test-time compute，強化學習彌補的是專業(yè)數(shù)據(jù)的稀缺，思維鏈彌補的是宏觀數(shù)據(jù)的稀缺，test-time compute，也有人把它叫 inference-time compute，它發(fā)揮什么作用？

袁進輝：它其實是解決，模型只計算一次搞不定的事情。

過去搞不定，一部分原因在于模型缺乏解決綜合問題或宏觀決策問題的拆解步驟的數(shù)據(jù)。除了在訓練階段下功夫，也可以通過在 inference 時把問題分解成一個個步驟每個小步驟都是大模型擅長解決的最終解決整個問題。

它不像前兩個方法是直接補充訓練數(shù)據(jù)，在訓練階段發(fā)揮作用；它是在推理階段工作，在模型已經(jīng)定型后，仍可以通過分步解問題，給用戶更好的體驗。

這個思路其實在一些 RAG、workflow 里也有體現(xiàn)。比如上海人工智能實驗室做了 MindSearch，人在搜索時，也會做反思，琢磨用什么更好的關(guān)鍵詞，怎么搜得更好，MindSearch 就做了類似的工作。

這次 o1 一個比較大的意義是，它通過在推理端多花一些算力，或者說多花一些時間，最終表現(xiàn)出來的能力提高非常多。

所以綜合來說，強化學習、chain of thought 還有 test-time compute 等等，每一個單獨的 idea 之前都有了，都不是石破天驚，但 OpenAI 把這幾個 idea 組合在一起，有的在訓練端，有的在推理端，都用來提升 reasoning 能力，取得了很好的效果。

《晚點聊》：o1 發(fā)布后，大家討論比較多的還有 “系統(tǒng) 2”。類比人類，“系統(tǒng) 1” 是快速反應(yīng)過程，比如我們學會開車后，不用全神貫注也能開車，而 “系統(tǒng) 2” 是深思熟慮下判斷，做決定或解決復(fù)雜問題的過程。test-time compute，是否可以理解成在模型推理階段，強制按系統(tǒng) 2 的方法解答問題？

袁進輝：可以這么理解，原來大模型是來了一個輸入后，神經(jīng)網(wǎng)絡(luò)只 inference 一次就返回結(jié)果。

現(xiàn)在是，問題過來后，先 inference 一次，再把這個結(jié)果結(jié)合 chain of thought 的提示喂給大模型，讓它有一個琢磨反思的過程，叫 reflection。經(jīng)過這樣幾次后，模型才把最終結(jié)果返回給用戶，這確實很像人的系統(tǒng) 2，或者叫 “慢思考” 過程。

新礦被發(fā)現(xiàn)，但不改變 “訓基礎(chǔ)模型公司變少” 的趨勢

《晚點聊》：test-time compute 被關(guān)注，也因為它顯示出在推理階段放更多計算資源，模型性能還會提升。OpenAI 的 o1 官方博客里有這樣一張圖（如下），英偉達 AI 科學家 Jim Fan 說這是 2022 年以來，大語言模型研究領(lǐng)域最重要的一張圖。為什么證實 “在推理上鋪更多資源能 work ” 這件事會這么重要？

OpenAI o1如何延續(xù)Scaling Law

袁進輝：這相當于證實了，原來還有一個這么大的礦，還沒挖。

之前的 scaling law，主要是在訓練階段多放計算資源（模型性能會提升），這已經(jīng)是共識。但任何方法都不可能永無止境，繼續(xù)優(yōu)化訓練的邊際收益已有衰減的跡象，相當于再挖之前的礦，收益沒那么高了。

而在推理階段做 reflection，這是以前沒做過，或者沒人實現(xiàn)得這么好的，o1 展示了在原來沒怎么挖掘的地方，還有很大收益。當然，它也會經(jīng)歷一開始收益很高，到一定階段后收益衰減的過程。

《晚點聊》：這會怎么影響英偉達的業(yè)績？o1 的方法如果被追逐、普及，是否意味算力需求會上升？

袁進輝：總體上，o1 無論在訓練和推理階段，都意味著更多算力。

首先通過強化學習合成一些新的數(shù)據(jù)，需要新的訓練，訓練模型的算力和可用數(shù)據(jù)量成正比。

更大的增量在推理端，原來 inference 只計算一次，而現(xiàn)在是多次，假如平均要調(diào)十次單模型 inference ，那就是十倍的 inference 算力。

《晚點聊》：推理階段計算需求變大，這很好理解。訓練階段的算力需求也和模型參數(shù)規(guī)模有關(guān)，這又和它的訓練方法有關(guān)。

袁進輝：關(guān)于 o1 的訓練方法，我的猜測是，原來訓練大模型，是從網(wǎng)上收集自然數(shù)據(jù)，先做 pre training（預(yù)訓練），然后做 post training（后訓練）、 fine tuning（精調(diào)）、alignment（對齊）等。

現(xiàn)在是收集了自然數(shù)據(jù)，同時還通過強化學習獲得一些合成數(shù)據(jù)，用這些數(shù)據(jù)一起做訓練，簡單理解是這樣。

這又有多種可能：一種是把合成的數(shù)據(jù)和自然數(shù)據(jù)放在一起 training from scratch（從頭訓練），得到一個基座模型；也有可能用自然數(shù)據(jù)訓了基座模型后，再把合成數(shù)據(jù)和一部分自然數(shù)據(jù)放在一起做所謂 continual training，甚至也可以在 fine tuning 階段放進去。

也有可能會是一個復(fù)合模式：一個小一點的模型搭配一個更大的模型，比如做 reasoning 那部分模型可能不需要太大，AlphaGo 那種模型以前都是千萬級或者億級參數(shù)，就能做得非常好。

《晚點聊》：Jim Fan 也在 X（twitter）上分享，說未來的模型可能會分離成有一個小的推理核心 + 一個大的記憶很多知識的模型，后者回答一些常識性、瑣碎性問題上。

袁進輝：有這個可能�，F(xiàn)在各種可能都是猜測，有條件做實驗的可以試一下。

《晚點聊》：推理端的算力用量變化已有一些數(shù)字可循，比如 OpenAI 現(xiàn)在給 Plus 會員的限制是 o1 preview 每周 30 次，o1 mini 每周 50 次，而 GPT-4o 是每 3 小時 80 次，差了大幾十倍。這可以反推它們的推理成本差異嗎？

袁進輝：從限制看沒這么直接，限制的原因也可能是，技術(shù)還沒那么 ready，OpenAI 給大家試用機會，但并不希望完全放開。

從 API 定價看更直接，4o 現(xiàn)在百萬 tokens 差不多是 10 美元，而 o1 是大幾十美元到一百美元。

《晚點聊》：考慮到 o1 現(xiàn)在成本還比較高，它可能在最快在什么場景被用起來？

袁進輝：最大的想象力還是這個 agent。可以把 agent 理解為一個 AI 員工，他能做 HR、程序員等等，當然這是和數(shù)字世界打交道的工作，如果要進入物理世界，還要結(jié)合具身智能。

Agent 之前一直受限于大模型 reasoning 能力不好，即使基于水平最高的 GPT-4 等模型，還是很多 agent 走不通，錯誤率會在多個環(huán)節(jié)解中累積（agent 要完成一個具體工作任務(wù)，一般要多次使用大模型，走完一個工作流程，要求每一步都正確才能完成），那現(xiàn)在 reasoning 能力的提升就有望解鎖 agent 應(yīng)用。

《晚點聊》：按具體行業(yè)或工種分，什么類型的 Agent 會最先起來？OpenAI 自己專門針對編程、數(shù)學、科學等 STEM 領(lǐng)域優(yōu)化了 o1 mini，是否他們也認為輔助或替代程序員和一些初級研究者是最快的方向？

袁進輝：大模型輔助程序員，這在 o1 前就非常好了。之前 AlphaCode 就已經(jīng)能寫代碼，最近又出現(xiàn)了 Cursor 等編程工具和自動編程方式。o1 的意義是在代碼之外，在更泛化的數(shù)理、工程領(lǐng)域都能有一些探索。

甚至我看網(wǎng)上有人想讓 o1 解決黎曼猜想，如果真能把這個問題搞定，即使花一個月，價值也足夠高。

《晚點聊》：一個月很短。證明費馬大定理，用了 350 多年。

袁進輝：所以 o1 解的不是那種常見問題，而是非常重要、高價值的問題，在生活中可能頻度并不高。o1 代表了大模型往極限去探索的當前天花板。

《晚點聊》：當年 AlphaGo 在圍棋上可以擊敗世界冠軍，在數(shù)學問題上，大模型也能做到人做不到的事嗎？

袁進輝：有可能，不一定是 o1 這種模型，也可能是針對數(shù)學做更多優(yōu)化的模型。通過像 AlphaGo 那種搜索 + 反饋的方式，去空間里搜索解。這個空間會非常大，哪怕是下棋問題，如果要遍歷空間中的每個點，可能今天所有算力加起來都不夠。

但下棋也好，數(shù)學也好，它的解在空間里的分布都是不均勻的。模型有可能捕捉住這個解空間里的一些規(guī)律，就是解在什么地方出現(xiàn)的可能性更大，所以它有可能用更少算力，找到可能性更高的解，甚至找到人找不到的那個解。

《晚點聊》：剛才說了 o1 的有價值的應(yīng)用方向，同時它現(xiàn)在也有明顯應(yīng)用短板，比如它很慢。OpenAI 展示的一個例子是，讓大模型列舉 5 個第 3 個字母是 a 的國家的名字，GPT-4o 回答只用了 3 秒（答錯了），O1 mini 是 9 秒，O1 preview 是 32 秒，超過一個廣告的時長。你覺得這是一個可以突破的限制嗎？未來速度怎么優(yōu)化？

袁進輝：我覺得可以優(yōu)化，從過去技術(shù)的發(fā)展規(guī)律看，首先是看效果能不能達到。如果效果能達到，效率或計算時間問題是確定性會被解決的。

Inference 一次的時間只和 token 序列長度有關(guān)。所以以后可能會是簡單的問題，它思考更少步驟，更快輸出結(jié)果；復(fù)雜的問題，它才反復(fù)思索�，F(xiàn)在會出現(xiàn)一個簡單的問題，它思考了很長時間的情況，那說明 test-time compute 有優(yōu)化空間。

《晚點聊》：除了慢之外，目前 o1 API 也有一些使用限制：每分鐘只能 20 次請求，也不包括函數(shù)調(diào)用、流式傳輸，還有系統(tǒng)消息支持功能，這對開發(fā)者是個不便嗎？

袁進輝：會有一些。我覺得這是因為 o1 的 reflection 機制是把多個 inference 組合起來，但在更多場景里，這種方式到底怎么能發(fā)揮更好？以及這個組合中，到底什么部分允許用戶 DIY ？這些都還不那么清楚，所以要逐步釋放。

《晚點聊》：硅基流動主要就是做 inference 優(yōu)化、加速，幫開發(fā)者把大模型用得更好，你們已開始針對 o1 這類模型做什么準備？

袁進輝：我們依賴業(yè)內(nèi)開源模型，開源模型還沒有做 o1 這樣的事。但現(xiàn)在已經(jīng)可以為推理優(yōu)化做準備了，Infra 層有很多機會：

比如一個復(fù)雜問題可分解成多個步驟，中間有些步驟可以并行開展，相互不依賴，那就可以同時做 inference，這能減少用戶感知到的計算時間。

也有一些步驟可能相互依賴，要一步步多次嘗試，如果能提前得到這些嘗試間的依賴關(guān)系或者叫 graph（圖關(guān)系），就可以發(fā)現(xiàn)某些 inference 是冗余的，其實不用做。這不僅能減少用戶的體感時間，也能減少實際計算量。

還有個機會是，基于開源模型，用強化學習策略做各種垂類和領(lǐng)域模型。Infra 層怎么促進這種訓練，也有文章可做。

《晚點聊》：反過來說，o1 又會消滅什么機會？比如之前 prompt 工程很火，現(xiàn)在是不是沒那么有必要了？

袁進輝：o1 確實讓之前手寫的一些 prompt 沒那么必要了。o1 文檔里也提到了，有些東西模型已經(jīng)做了，不要在 prompt 里再提了，相當于有部分 prompt 工作被自動化了。

《晚點聊》：o1 會對其他公司，尤其是中國公司的投入帶來什么變化？據(jù)我們了解，今年年中開始，中國部分大公司和創(chuàng)業(yè)公司暫緩了訓練基礎(chǔ)大模型。比如一些自己有云業(yè)務(wù)的公司，它的 GPU 更多是租出去，而不是給自己訓練模型，因為看不清繼續(xù)訓練的回報。

袁進輝：一方面 o1 確實開啟了一個范式，一定會被其它大模型公司跟進，也包括開源模型。另一方面，你說的這個情況做基座模型的人變少了，海外也有，不少創(chuàng)業(yè)公司也回歸大廠了。

現(xiàn)在開源模型確實能力很不錯。如果自己重金搞一個模型，在市場上又沒競爭優(yōu)勢，確實算不過賬。這就像大家都想摘樹上的蘋果，大模型就是一個梯子，原來認為，沒多少人會造梯子，我造出梯子我自己去摘果實。

突然 Meta 說，它造一個梯子（Llama)，你們可以隨便用，而且這個梯子還挺好，這樣很多人就基于它的梯子去摘水果了，而你還在自己造梯子，還不一定比 Meta 的好，等造出來，水果已經(jīng)被人摘了。

所以從理性角度，市場就會有這個調(diào)整�，F(xiàn)在繼續(xù)訓基礎(chǔ)模型的，要么是真特別有理想主義，一定要實現(xiàn) AGI；要么是沒有后顧之憂，資源非常充沛的公司。

《晚點聊》：o1 會改變這種氛圍嗎？是不是至少在接下來一個階段里，各公司可能重新加大投入？

袁進輝：我不覺得不會。對想繼續(xù)追求技術(shù)極限的公司，o1 確實提供了方向。但它不改變做大模型的人越來越少的趨勢。

之前做基座模型時，大家沒想到技術(shù)擴散這么快，以及邊際收益比較快就越來越校o1 出來后，也是一樣的：技術(shù)也會擴散，邊際收益也會從開始比較大到變緩。所以 o1 的出現(xiàn)并不會改變一些公司的決策邏輯。

《晚點聊》：由此帶來的一個后果是，短期內(nèi)，中國的 GPU 算力是否會有冗余？

袁進輝：原來很多公司想訓練自己的基礎(chǔ)模型提前做了算力投資，現(xiàn)在開始轉(zhuǎn)型，確實可能把算力往外租，放到市場上流轉(zhuǎn)。相比半年前，算力價格確實有比較明顯的下降。

《晚點聊》：現(xiàn)在中國的 GPU 算力價格比國外還便宜，這說明什么？

袁進輝：一是訓練模型的沒那么多了，另一方面是國內(nèi)電費更便宜，第三是國內(nèi)算力的供給方比較分散，競爭更激烈。

總體上看，國內(nèi)能訓練超大型模型的算力集群還是稀缺的。但現(xiàn)在有決心繼續(xù)投入這種規(guī)模訓練的公司也不多了。然后推理的算力需求還沒有這么快起來，有一個技術(shù)滲透，應(yīng)用成熟的過程。

AI 應(yīng)用開發(fā)未冷卻，只是更分散、小微、個人化

《晚點聊》：上次我們交流是今年 1 月，當時大模型很熱。過去這幾個月，OpenAI 幾個重要升級跳票，市場上開始有質(zhì)疑大模型的聲音。硅基流動每天服務(wù)開發(fā)者，你有看到熱情冷卻的跡象嗎？

袁進輝：應(yīng)用探索這一塊，我沒有感到變冷。大家對 AI 的價值判斷沒有變化，它遲早會無處不在，會非常有價值，我沒看到有什么懷疑。而且隨著開源模型出現(xiàn)，基于這些模型做應(yīng)用的人越來越多。

之前非常熱情做應(yīng)用探索的，是一些有 FOMO 心態(tài)的大公司。最近我們能看到非常強的趨勢是，個人開發(fā)者、產(chǎn)品經(jīng)理、中小企業(yè)越來越多，他們是各個領(lǐng)域的毛細血管，幾乎任何場景，任何工作環(huán)節(jié)，都有案例出現(xiàn)。

《晚點聊》：可以舉一些例子嗎？

袁進輝：以人從小到大成長過程為例。做小孩教育、小孩玩具的現(xiàn)在挺多，教小孩學語言、給小孩講故事、做繪本。大一些就是工作場景了，不管是 Coding、娛樂、寫作，還有陪伴都挺多。前一段時間，還有開發(fā)者做老人關(guān)懷應(yīng)用，幫人寫遺囑。

《晚點聊》：做這些應(yīng)用的開發(fā)者，都是什么背景？是不是越來越多也不是技術(shù)背景的？

袁進輝：比如玩具，有的是從傳統(tǒng)玩具行業(yè)轉(zhuǎn)型的，也有一些是互聯(lián)網(wǎng)公司做產(chǎn)品經(jīng)理的。

最開始大家認為只有像大公司或?qū)ｉT做大模型的公司一樣，有完善的 AI 能力和團隊，才有機會做產(chǎn)品探索�，F(xiàn)在大家想用比較高水平的模型，基本都能拿到，而且還非常容易使用。所以只要在某個領(lǐng)域有產(chǎn)品和需求洞察，也可以做應(yīng)用，模型訓練、調(diào)優(yōu)等都不太需要做了，這就使能參與 AI 應(yīng)用探索的人群擴大了。

《晚點聊》：一方面你說應(yīng)用熱情未冷卻，另一方面，創(chuàng)投市場去年預(yù)期的 AI 應(yīng)用爆發(fā)好像也沒到來，這是為什么？

袁進輝：這也是一種真實的體感。我觀察到的是那種草根開發(fā)者，從非常小事情開始做起，他們有的也開始收錢了，每月收入幾萬塊，但他們沒有到投資機構(gòu)投的門檻，特別是現(xiàn)在投資機構(gòu)資金也比較匱乏。很多主動探索 AI 應(yīng)用商機或產(chǎn)品的開發(fā)者也是用自己的錢做的。

當然也有快到投資門檻的。比如有一個產(chǎn)品叫捏 Ta，用戶可以在上面按自己想法塑造二次元人物，和它交朋友，這些被塑造的人物之間也可以 social。這個產(chǎn)品的增長數(shù)據(jù)很好。

如果每天和開發(fā)者打交道，你不會感覺這個行業(yè)在停滯或變冷。

《晚點聊》：硅基流動自己的客戶，調(diào)用最多的開源模型是哪些？

袁進輝：國內(nèi)比較多的有通義千問、DeepSeek。通義千問從小到大，7B 到 70B 都有。DeepSeek 是 coding 能力很強，甚至有一些海外客戶來調(diào)國內(nèi)的 DeepSeek 模型，還有 GLM-4，能力也挺好的，不過我們沒有 GLM 更高級的模型，那個沒開源。Llama 國內(nèi)的調(diào)用量并不大，海外是有量的。

《晚點聊》：你們客戶的用戶規(guī)模怎么樣？

袁進輝：我們不能看到客戶的用戶規(guī)模，但能觀察到 token 量。每天超幾億 tokens 或 10 億 tokens 的客戶是有一些的，這意味著每周活躍用戶數(shù)是幾十萬。

這些應(yīng)用爆發(fā)也有節(jié)奏，有過程。我最近看了釘釘總裁葉軍的一個訪談，現(xiàn)在很多人在釘釘里面供應(yīng) AI 能力。他說了一個蠻有意思的觀察：如果一開頭就想做一個基于 AI 的大應(yīng)用，希望特別多人來用，這種預(yù)期不一定對路。

相反，釘釘生態(tài)下存在大量看上去不大的 AI 功能，它們可以被用到釘釘?shù)墓ぷ髁髦�，下單使用的也是個人，付費決策很快。

AI 應(yīng)用也可能是這種巷戰(zhàn)：它無處不在，但每一處又沒有我們期待的那么大。

還有一種可能是，這種小應(yīng)用或者能力足夠多之后，有些會逐漸成長成為我們期待的 super app，它需要一個過程。

《晚點聊》：現(xiàn)在看，手機智能助手有可能會是這樣一個入口，蘋果的 siri 結(jié)合大模型后，可以嵌入很多 App 能力，用戶不用再在多個 app 間跳來跳去。

袁進輝：對，蘋果的 siri、騰訊的微信，今天的巨大入口級產(chǎn)品看上去也有希望成為新的 AI 入口。但還沒有看到一個全新的 AI player 出現(xiàn)，大家都在期待。

《晚點聊》：OpenAI 不算一個新的 player 嗎？

袁進輝：以日活計算，OpenAI 和 Meta、TikTok、微信還有數(shù)量級差距。和蘋果比，OpenAI 還處在被蘋果整合的角色。一種猜測是，蘋果、騰訊、字節(jié)這類公司血條夠長，它們可能會逐漸追上最好的模型。

《晚點聊》：之前我們和昆侖萬維 CEO 方漢聊，他總結(jié)了一個 “巨頭遞減” 規(guī)律互聯(lián)網(wǎng)浪潮誕生了一批新巨頭；移動互聯(lián)網(wǎng)浪潮，美國其實沒有新巨頭，一批中等體量公司后來也被 Google、Meta 等公司整合，中國現(xiàn)在要出現(xiàn)新巨頭也越來越難了。當然這只是一種基于歷史的歸納。

袁進輝：我們可以回溯這幾個浪潮的技術(shù)本質(zhì)。PC 互聯(lián)網(wǎng)主要是做信息化，移動互聯(lián)網(wǎng)還有線上、線下連通，新巨頭都是在這個過程中搶占了一些場景。

但現(xiàn)在很難再想象出什么新場景，AI 這一次更多不是創(chuàng)造新場景，而是提升各個場景的效率。

《晚點聊》：這可能是因為我們身處其中，看到的是一個漸變過程。就像當年鐵路替代馬車，最初也可以看做是同一個場景，出行和運輸，但一旦圍繞鐵路的技術(shù)體系被構(gòu)建出來，又會長出一些新場景，比如美國希爾斯百貨會用鐵路郵寄賣表，以前很難有這種零售場景。未來會有多大變化，可能取決于生成式 AI 技術(shù)與互聯(lián)網(wǎng)技術(shù)有多大差別，這也是逐漸發(fā)生的，現(xiàn)在很難在一個歷史的遠距離去觀察這個過程。今天感謝袁老師提供了一個觀察應(yīng)用開發(fā)的視角，你提到大家開發(fā)應(yīng)用的熱情沒有消減。

袁進輝：信心是足夠的。只是參與其中的主體可能有了一些新變化，新來的人更孝更分散，是草色遙看近卻無的那種感覺。只不過大家的注意力更多放在大公司身上。

題圖來源：OpenAI

相關(guān)熱詞： OpenAI amp #160 如何延續(xù) Scaling

上一篇：AI大模型站在十字路口，持續(xù)突破or陷入低谷？

下一篇：對話地瓜機器人CEO王叢：我們不造機器人但要讓造機器人這事變得更爽

OpenAI o1如何延續(xù)Scaling Law
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-22 07:28:46 瀏覽：4097次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI&#160;o1如何延續(xù)Scaling Law 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-22 07:28:46 瀏覽：4097次