哥幾個(gè)你敢信,咱 DS 哥( DeepSeek )這一波的影響力,到現(xiàn)在都還沒有結(jié)束。
讓 AI 成為大家茶余飯后的談資不說,還把對(duì)手們的安生日子攪的是天翻地覆,特別是 OpenAI ,恐怕是這次事變中,受刺激最大的一家公司了。( 英偉達(dá)除外哈 )
要不然, OpenAI 也不會(huì)緊跟在 DeepSeek 后面發(fā)布 o3-mini 、免費(fèi)開放 ChatGPT 搜索,奧特曼也不會(huì)親口承認(rèn),在開源和閉源的選擇上站錯(cuò)了隊(duì)。
不過世超原本以為,到這兒 OpenAI 估計(jì)也就消停一陣了,回去潛心修煉后面再憋個(gè)大的也不遲。
但沒想到, OpenAI 這次使的居然是連招。。
是這樣的,在免費(fèi)開放搜索功能的第二天,世超就看到 OpenAI 公開了 o3-mini 的思維鏈。
這個(gè)思維鏈( Chain of Thought , CoT )說白了,其實(shí)就是 AI 模型在回答問題之前,整個(gè)的思考過程。用戶可以根據(jù)思維鏈的內(nèi)容,看到模型的推理邏輯,并參與驗(yàn)證,相當(dāng)于把黑箱透明化。
就比如你問 ChatGPT 今天怎么不是周五,它能一頓分析推理,檢查日期、公式計(jì)算,還對(duì)閏年的特殊情況進(jìn)行了處理。
但公開思維鏈的做法,也算不得什么新鮮事,畢竟人家 DeepSeek 早就有了。
所以,世超這次順手對(duì)比了下 o3-mini 和 DeepSeek R1 的思維鏈,結(jié)果發(fā)現(xiàn)這倆的 “ 思考方式 ” 還是挺不一樣的。
最明顯的一點(diǎn),就是 R1 想得多, o3-mini 想得少。
正好今天周六調(diào)休,世超用同一個(gè)問題( 今天是周六,為什么還需要工作? ),來(lái)測(cè)試兩個(gè)模型。
咱們先來(lái)看 o3-mini 的回答,上來(lái)就猜用戶的情緒,沒有太多的分析過程,后面給出的幾種原因也很簡(jiǎn)明扼要,只思考了 7 秒,就給出了答復(fù)。
再看 R1 這邊,思考的過程就非常詳盡了。
先分析問題的背景,接著考慮周六可能需要工作的原因,再去驗(yàn)證這些原因的可能性。等問題想清楚以后,該怎么回答,用什么語(yǔ)氣。。。都包括在了 R1 的思維鏈里。
當(dāng)然,這樣一頓深度思考下來(lái),也確實(shí)花了不少時(shí)間,推理時(shí)長(zhǎng)足足是 o3-mini 的 3 倍。
從思考的內(nèi)容上看,其實(shí) o3-mini 和 R1 都考慮到了加班、所處行業(yè)、單休還有項(xiàng)目 deadline 等原因,但只有 R1 想到了,今天要上班可能是因?yàn)?strong>法定節(jié)假日調(diào)休。
要不說,還得是咱們國(guó)內(nèi)的模型呢。
接著,我又問了倆模型一個(gè)有點(diǎn)繞邏輯的數(shù)學(xué)題。
o3-mini 還是同樣的用時(shí)短、話少,就是吧,里面那句 “ 老板的損失不單單是水的售價(jià) ” 給我整不會(huì)了,有沒有人能告訴我一下,這個(gè)水是從哪來(lái)的。。。
但有一說一, o3-mini 的整個(gè)分析邏輯,世超覺著沒有那么循序漸進(jìn)。
作為對(duì)比,大伙兒可以看看 R1 的思考過程。
先明確正常情況下( 沒有假幣 )的收支情況,再通過整個(gè)交易過程的現(xiàn)金流入和流出情況,來(lái)計(jì)算總損失。
另外, R1 在算出 80 元的實(shí)際損失后,還考慮到了包含預(yù)期利潤(rùn)的另外一種思路。
雖說花了 48 秒,但 R1 的思考過程更完整,思維發(fā)散得更廣,考慮到了很多細(xì)枝末節(jié)的東西。
最后咱再來(lái)整個(gè)活,問問兩個(gè)模型,如果我和它們的大老板同時(shí)掉水里了,會(huì)救誰(shuí)。
兩個(gè)模型都知道自己沒有物理實(shí)體,想救人也是心有余而力不足。
但 o3-mini 的思維,世超覺著有點(diǎn)太一板一眼了,冷冰冰的直擊問題要害。
最后輸出的答案,也在解釋自己如果有能力的話,不會(huì)在兩條生命中進(jìn)行選擇。
相反, R1 想得就周全得多了,還知道我問這個(gè)問題是想測(cè)試它的反應(yīng)、得到重視,連這個(gè)問題的文化背景都考慮到了。
而輸出的答案也假設(shè)了一波,當(dāng)緊急情況發(fā)生的時(shí)候它會(huì)怎么做,再給我提了點(diǎn)應(yīng)急建議,情緒價(jià)值算是到位了。
當(dāng)然了,這次測(cè)試并不是非要分出個(gè)高下來(lái),讓大伙兒了解兩個(gè)模型思維鏈之間的差異就行。
不過世超也注意到,國(guó)外有細(xì)心的網(wǎng)友發(fā)現(xiàn), o3-mini 的思維鏈摻水了。。。
在 OpenAI 的推文下面,有老哥對(duì)思維鏈的真實(shí)性提出了質(zhì)疑,說現(xiàn)在的思維鏈只不過是原始思考過程的總結(jié)摘要。
還有咱們開頭提到官方的展示案例里, o3-mini 的思維鏈顯示使用了蔡勒公式進(jìn)行計(jì)算,卻也沒有具體的計(jì)算過程。
很快, OpenAI 的研究員 Noam Brown 就出來(lái)實(shí)錘, o3-mini 的思維鏈確實(shí)不是原始的思維鏈。
包括奧特曼本人也下場(chǎng)認(rèn)錘,解釋說是為了讓思維鏈更具可讀性。
但評(píng)論區(qū)底下的網(wǎng)友可沒那么好糊弄,畢竟 DeepSeek 那邊不光免費(fèi),還公開了原始的思維鏈, OpenAI 這誠(chéng)意明顯不夠啊。
而除了過程的可讀性外, OpenAI 的一眾員工在 Reddit 答網(wǎng)友問的時(shí)候,也提到了一個(gè)點(diǎn),公開原始思維鏈會(huì)導(dǎo)致競(jìng)爭(zhēng)性蒸餾。
說白了就是怕被抄唄。
后續(xù)如果用戶想看到完整的思維鏈,世超估計(jì)就得加錢才行了。
不過有一說一, OpenAI 從 o1 藏得嚴(yán)嚴(yán)實(shí)實(shí),到 o3-mini 半公開思維鏈,已經(jīng)算是不小的進(jìn)步了。
世超原本以為, OpenAI 作為閉源陣營(yíng)的長(zhǎng)期支持者,會(huì)一條路走到黑,沒想到被 DeepSeek 逼了一把,馬上就亂了陣腳。
盲猜他們后面在開源上應(yīng)該會(huì)有不小的動(dòng)作,說不定哪天開源陣營(yíng),就又要多一位強(qiáng)大的盟友了。