展會信息港展會大全

OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-08 07:59:58   瀏覽:250次  

導(dǎo)讀:讓我們再次感謝 DeepSeek。今天凌晨,OpenAI 宣布公開最新模型 o3-mini 系列模型的思維鏈。簡單來說,用戶現(xiàn)在可以看到 o3-mini 以及 o3-mini(high) 的「思考」過程,更清晰地了解模型是如何推理并得出結(jié)論的。OpenAI 研究科學(xué)家 Noam Brown 在 X 平臺發(fā)文稱:「在 o1-Preview 發(fā)布前,我們向大家介紹  時(shí),看到思維鏈(CoT)實(shí)時(shí)運(yùn)行往往是他們的『頓悟』時(shí)刻,讓他們意 ......

讓我們再次感謝 DeepSeek。今天凌晨,OpenAI 宣布公開最新模型 o3-mini 系列模型的思維鏈。簡單來說,用戶現(xiàn)在可以看到 o3-mini 以及 o3-mini(high) 的「思考」過程,更清晰地了解模型是如何推理并得出結(jié)論的。OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

OpenAI 研究科學(xué)家 Noam Brown 在 X 平臺發(fā)文稱:

「在 o1-Preview 發(fā)布前,我們向大家介紹  時(shí),看到思維鏈(CoT)實(shí)時(shí)運(yùn)行往往是他們的『頓悟』時(shí)刻,讓他們意識到這將是一件大事。這些雖然不是原始的思維鏈,但已經(jīng)非常接近了。我很高興我們能與世界分享這一體驗(yàn)!」

OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

隨后,他進(jìn)一步闡述道:「o3-mini 是首個能夠持續(xù)準(zhǔn)確解答井字棋問題的大語言模型。雖然概括后的思維鏈看起來有些混亂,但從右側(cè)可以看到,模型最終還是成功找到了正確答案!

OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

公開了,但也沒完全公開。據(jù)外媒 TechCrunch 報(bào)道,OpenAI 仍然不會完全公開 o3-mini 的完整推理步驟,但其表示已「找到一個平衡點(diǎn)」,o3-mini 現(xiàn)在可以「自由思考」,然后整理出更詳細(xì)的推理摘要。在此之前,出于競爭考慮,OpenAI 沒有完全公開 o3-mini 及其前身(o1 和 o1-mini)的推理步驟,僅向用戶提供推理摘要,甚至這些摘要有時(shí)并不準(zhǔn)確。并且,為了提高清晰度和安全性,OpenAI 還引入了一個額外的后處理步驟,模型會首先對「思維鏈」進(jìn)行審查,剔除潛在的不安全內(nèi)容,并對復(fù)雜概念進(jìn)行適度簡化。OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

報(bào)道援引 OpenAI 發(fā)言人解釋稱,「這一后處理步驟還支持非英語用戶,確保他們可以用自己的母語查看『思維鏈』,讓體驗(yàn)更加友好和易懂!箤(shí)際上,推理透明度在 AI 領(lǐng)域正在成為一個重要的競爭點(diǎn),讓 AI 展示完整的推理步驟,不僅能提高用戶信任度,還能讓 AI 更容易被研究和改進(jìn)。OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

不過,公開思維鏈可能會被競爭對手利用,比如通過蒸餾技術(shù)提取模型的推理邏輯,在上周 Reddit 的 AMA(Ask M Anything)活動中,OpenAI 首席產(chǎn)品官 Kevin Weil 就曾表示:我們正在努力展示比現(xiàn)在更多的推理過程(這一變化)很快就會到來。是否展示完整的「思維鏈」仍未確定,因?yàn)檫@涉及競爭問題。但我們也知道用戶(尤其是高級用戶)希望看到更多細(xì)節(jié),所以我們會找到合適的平衡點(diǎn)。相比之下,DeekSeek R1 的思維鏈?zhǔn)菬o條件公開透明的,其深度思考過程更是贏得了不少網(wǎng)友的點(diǎn)贊。而 OpenAI 這次的「被迫」調(diào)整,顯然是為了應(yīng)對 DeepSeek 及其他 AI 公司的壓力。X 網(wǎng)友 @thegenioo 第一時(shí)間上手實(shí)測了這次思維鏈的更新。他表示,「新版本不僅提供了更流暢的用戶界面,還讓模型的思考過程更加透明!

以下是 DeepSeek R1 與 OpenAI o3-mini(high) 在同一問題上的思考對比。「deeepseeeeeek 有多少個 e」

DeepSeek R1OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

OpenAI o3-mini(high)「假設(shè)有一個池塘,里面有無窮多的水。現(xiàn)有 2 個空水壺,容積分別為 5 升和 6 升。問題是如何只用這 2 個水壺從池塘里取得 3 升的水!

DeepSeek R1

OpenAI o3-mini(high)「一個人花 8 塊錢買了一只雞,9 塊錢賣掉了,然后他覺得不劃算,花 10 塊錢又買回來了,11 塊賣給另外一個人。問他賺了多少?」

DeepSeek R1OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

OpenAI o3-mini(high)看完以上案例,我們會發(fā)現(xiàn)兩個模型截然不同的「思維風(fēng)格」。DeepSeek R1 更像文科生,它的推理過程循序漸進(jìn),思路周密細(xì)膩,這樣的好處是結(jié)果更可靠,也較少出現(xiàn)邏輯偏差。而 o3-mini(high) 更像理科生,推理過程簡潔明快,直指問題核心。這種差異也進(jìn)一步反映在響應(yīng)速度上,DeepSeek R1 的思考時(shí)間相對較長,而 o3-mini(high)則更快。

就答案而言,DeepSeek R1 的解答往往更加完整詳實(shí),比方說第一道測試題它還會特意加入了貼心的注解。相比之下, o3-mini(high) 則顯得「公事公辦」。

如開篇所說,此次o3-mini公布的并非完整版思維鏈,因此向公眾開放后,也引發(fā)了不少質(zhì)疑聲。

OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

面對爭議,OpenAI CEO Sam Altman 也很快在 X 平臺作出解釋:「我們嘗試整理原始的思維鏈,使其更易讀,并在需要時(shí)進(jìn)行翻譯,但盡量保持其原始風(fēng)格!

不過,正如一位網(wǎng)友一針見血地指出:如果沒有 DeepSeek,我們還能看到 o3-mini 哪怕是「閹割版」的思維鏈嗎?恐怕答案不言自明。

OpenAI 突然公開 o3-mini 思維鏈!首秀遭質(zhì)疑,實(shí)測對比 DeepSeek R1,差距太明顯

贊助本站

相關(guān)熱詞: openai deep 模型 迷你 思維 r1

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港