當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？

OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:15:16 瀏覽：265次

導(dǎo)讀：圖片來(lái)源：視覺(jué)中國(guó)藍(lán)鯨新聞12月23日訊（記者朱俊熹）在“雙十二”活動(dòng)的最后一天，OpenAI終于扔下重磅：o3推理模型。當(dāng)?shù)貢r(shí)間12月20日發(fā)布的o3模型，是9月推出的o1推理模型的下一代。為避免與英國(guó)電信運(yùn)營(yíng)商O(píng)2發(fā)生版權(quán)或商標(biāo)沖突，OpenAI選擇跳過(guò)o2并直接將新模型命名為o3。繼谷歌前一天發(fā)布推理模型后，OpenAI很快釋出最新的o3模型，似乎想要證明自己在模型層面依然保持領(lǐng)先 ......

OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？

圖片來(lái)源：視覺(jué)中國(guó)

藍(lán)鯨新聞12月23日訊（記者朱俊熹）在“雙十二”活動(dòng)的最后一天，OpenAI終于扔下重磅：o3推理模型。當(dāng)?shù)貢r(shí)間12月20日發(fā)布的o3模型，是9月推出的o1推理模型的下一代。為避免與英國(guó)電信運(yùn)營(yíng)商O(píng)2發(fā)生版權(quán)或商標(biāo)沖突，OpenAI選擇跳過(guò)o2并直接將新模型命名為o3。

繼谷歌前一天發(fā)布推理模型后，OpenAI很快釋出最新的o3模型，似乎想要證明自己在模型層面依然保持領(lǐng)先身位。

據(jù)OpenAI介紹，o3能夠進(jìn)行復(fù)雜任務(wù)的推理，在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的表現(xiàn)要優(yōu)于前一代o1模型，同時(shí)花費(fèi)的處理時(shí)間也會(huì)更長(zhǎng)。以一項(xiàng)評(píng)估AI高級(jí)數(shù)學(xué)推理能力的測(cè)試EpochAI Frontier Math為例，以往所有模型都未達(dá)到2%的準(zhǔn)確率，而o3準(zhǔn)確率達(dá)到了創(chuàng)紀(jì)錄的25%。

o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關(guān)基準(zhǔn)測(cè)試ARC-AGI中，高配版o3得分為87.5%，低計(jì)算設(shè)置下o3得分為75.7%，是o1模型的三倍。但高計(jì)算模式需要花費(fèi)極其昂貴的成本，每個(gè)任務(wù)高達(dá)數(shù)千美元，低計(jì)算模式則需要20美元左右。

“我并不認(rèn)為o3就是AGI。o3在一些非常簡(jiǎn)單的任務(wù)上仍然失敗，表明它與人類智能存在根本差異�！�ARC-AGI測(cè)試創(chuàng)建者Franois Chollet表示。他們依然能創(chuàng)建具有挑戰(zhàn)性且未被充分測(cè)試的基準(zhǔn)，而當(dāng)設(shè)計(jì)出對(duì)普通人容易但對(duì)AI難的任務(wù)變得不可能時(shí)，才意味著AGI的真正到來(lái)。

OpenAI稱，較小版本的o3-mini將于明年1月底推出，隨后推出完整版o3。OpenAI正為安全研究人員開(kāi)放申請(qǐng)流程，邀請(qǐng)他們搶先體驗(yàn)o3模型，作為現(xiàn)有測(cè)試流程的補(bǔ)充。

回顧OpenAI“雙十二”：期貨大放出，產(chǎn)品更新缺乏新意

一位AI從業(yè)者在跟完OpenAI連續(xù)12個(gè)工作日的直播后直呼失望。“OpenAI只是在不停地填過(guò)去的坑。o3模型的發(fā)布仍然是一個(gè)‘畫(huà)餅’行為，要在實(shí)際使用之后，才能確定它到底怎么樣�！�他對(duì)藍(lán)鯨新聞表示。

與以往一小時(shí)內(nèi)快節(jié)奏、高密度的新品發(fā)布會(huì)不同，此次活動(dòng)的每日直播時(shí)長(zhǎng)在10到20分鐘不等，觀感上也缺少了一些震撼的感覺(jué)。CEO Sam Altman僅出現(xiàn)4次，除去o3模型發(fā)布日，其他場(chǎng)次大多在上線之前的期貨，包括完整版o1模型、視頻生成模型Sora、在蘋(píng)果中正式接入ChatGPT等。

在12月5日活動(dòng)首日，OpenAI發(fā)布了推理模型o1的正式版本，并于第二天圍繞該模型推出了強(qiáng)化微調(diào)功能。普通用戶如想無(wú)限制訪問(wèn)o1、o1 pro在內(nèi)的所有模型，需每月花費(fèi)200美元，購(gòu)買最新的付費(fèi)套餐ChatGPT Pro。此前ChatGPT基礎(chǔ)付費(fèi)服務(wù)為每月20美元。在接受彭博社采訪時(shí)，OpenAI首席財(cái)務(wù)官Sarah Friar并未否認(rèn)未來(lái)ChatGPT訂閱費(fèi)用將可能升至2000美元/月，“如果它真的能幫助我在做任何事情時(shí)都擁有一個(gè)博士級(jí)的助手”。

OpenAI的新技術(shù)從發(fā)布到正式可用之間通常存在一定的等待時(shí)間，最具代表性的就是其視頻模型Sora。12月9日，Sora在發(fā)布298天后終于正式上線，因大量用戶涌入Sora網(wǎng)站，一度導(dǎo)致服務(wù)器被迫暫時(shí)關(guān)閉。

Sora沉寂期間，視頻生成賽道出現(xiàn)了大量追趕者。如國(guó)外的谷歌、Runway、Luma AI，以及國(guó)內(nèi)的快手、字節(jié)跳動(dòng)、騰訊、生數(shù)科技、愛(ài)詩(shī)科技等公司都發(fā)布了視頻模型。有AI視頻創(chuàng)作者告訴藍(lán)鯨新聞，從視頻底層模型和生成質(zhì)量來(lái)看，并未感覺(jué)到Sora與可靈、即夢(mèng)、海螺等國(guó)產(chǎn)模型有明顯差距，甚至在性價(jià)比上還稍顯遜色。

在此輪“雙十二”活動(dòng)中，OpenAI還推出了七個(gè)月前演示過(guò)的實(shí)時(shí)視頻功能，并向所有ChatGPT用戶開(kāi)放了10月推出的搜索服務(wù)。在5月發(fā)布GPT-4o時(shí)，OpenAI曾預(yù)覽了具備實(shí)時(shí)視頻和屏幕共享功能的高級(jí)語(yǔ)音模式，此后卻多次推遲上線。而ChatGPT Search在剛推出時(shí)，僅面向部分付費(fèi)用戶開(kāi)放。

除了上線期貨，OpenAI也圍繞著用戶體驗(yàn)提升、產(chǎn)品優(yōu)化作出了多項(xiàng)更新。例如在活動(dòng)第四日，OpenAI將Canvas的使用權(quán)限由付費(fèi)用戶擴(kuò)展至所有用戶，該工具主要用于和ChatGPT合作進(jìn)行寫(xiě)作與編碼。OpenAI還在ChatGPT中新增了“項(xiàng)目”功能，便于用戶自行創(chuàng)建文件夾，將對(duì)話、文檔等各種功能集中到一處。

但這些產(chǎn)品功能并非由OpenAI首創(chuàng)，事實(shí)上早在幾個(gè)月前，其最大競(jìng)爭(zhēng)對(duì)手、AI初創(chuàng)企業(yè)Anthropic就推出過(guò)類似的功能。有AI從業(yè)者表示，從用戶體驗(yàn)、交互設(shè)計(jì)上看，Anthropic的AI助手Claude會(huì)呈現(xiàn)出更積極的創(chuàng)新姿態(tài)，OpenAI更像是參照著競(jìng)爭(zhēng)對(duì)手來(lái)完善ChatGPT這一產(chǎn)品。

前十一天直播過(guò)后，一些質(zhì)疑的聲音開(kāi)始越來(lái)越大：OpenAI是否因?yàn)槟Ｐ偷庥銎款i，才更多地轉(zhuǎn)向了對(duì)現(xiàn)有應(yīng)用的完善。對(duì)此，字節(jié)跳動(dòng)旗下云服務(wù)平臺(tái)火山引擎的總裁譚待在近期一場(chǎng)媒體群訪中表示，OpenAI最初就是一家在技術(shù)和應(yīng)用方面都表現(xiàn)出色的公司，大模型的火爆正是源于ChatGPT產(chǎn)品的發(fā)布。而技術(shù)和應(yīng)用是齊頭并進(jìn)的，隨著模型的提升，應(yīng)用的形態(tài)也會(huì)不斷發(fā)生變化，不僅僅是chatbot（聊天助手）。

收官日放出的o3模型再次表明，OpenAI這家AI領(lǐng)軍者在進(jìn)一步轉(zhuǎn)向新的推理范式，以期解決Scaling Law收益遞減、預(yù)訓(xùn)練數(shù)據(jù)短缺等困難。

推理、視頻、搜索，谷歌正面狙擊OpenAI

在爭(zhēng)搶公眾關(guān)注焦點(diǎn)方面，OpenAI和巨頭谷歌早有糾葛。今年5月，OpenAI恰好在谷歌I/O開(kāi)發(fā)者大會(huì)前一天舉辦發(fā)布會(huì)，用多模態(tài)大模型GPT-4o搶盡風(fēng)頭。在此次OpenAI“雙十二”活動(dòng)期間，雙方再度正面對(duì)壘。谷歌先后發(fā)布多項(xiàng)重大更新，包括量子芯片Willow、新一代大模型Gemini 2.0、推理模型、視頻和圖像模型等。

當(dāng)?shù)貢r(shí)間12月11日，谷歌推出了Gemini 2.0 Flash實(shí)驗(yàn)版本，是其2.0系列的首個(gè)模型。據(jù)谷歌介紹，相較于前代模型，Gemini 2.0 Flash具備低延遲和增強(qiáng)性能，在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)領(lǐng)先。除了支持圖像、視頻和音頻等多模態(tài)輸入外，該模型還支持多模態(tài)輸出。目前實(shí)驗(yàn)?zāi)Ｐ鸵严蛩蠫emini用戶開(kāi)放，完整版本將于明年1月全面上市。

谷歌母公司Alphabet首席執(zhí)行官Sundar Pichai在博客中指出，Gemini 2.0這一“迄今功能最強(qiáng)大的模型”是為智能體時(shí)代構(gòu)建的。借助新的多模態(tài)進(jìn)展以及各種原生工具，能夠打造全新的AI智能體，更接近通用助手的愿景�！叭绻f(shuō)Gemini 1.0的核心是組織和理解信息，那么Gemini 2.0的目標(biāo)就是讓信息更加有用�！彼硎�。

同步推出的還有谷歌正在探索的一系列智能體項(xiàng)目。此前曾預(yù)覽過(guò)的Project Astra基于Gemini 2.0迎來(lái)更新，該智能體支持高級(jí)視覺(jué)和語(yǔ)音交互，現(xiàn)在語(yǔ)言能力、工具屬性、記憶能力都得到了升級(jí)，谷歌還預(yù)告將在原型眼鏡上對(duì)其進(jìn)行測(cè)試。除此之外，谷歌還介紹了能像人類一樣使用網(wǎng)站的智能體Project Mariner，以及一款編碼智能體Jules。

AI智能體正成為國(guó)內(nèi)外大模型公司押注的主流方向。Anthropic在10月推出了能夠接管人類計(jì)算機(jī)的智能體，可執(zhí)行解釋屏幕內(nèi)容、輸入文本、瀏覽網(wǎng)站等任務(wù)。國(guó)內(nèi)方面，百度、字節(jié)、騰訊等大廠和智譜AI等創(chuàng)企也在加碼布局智能體。盡管此前曾傳出OpenAI正在準(zhǔn)備類似Anthropic的智能體，但并未如公眾預(yù)期般，在此次連更活動(dòng)中就亮相。

“就在你以為一切都結(jié)束了的時(shí)候……我們推出了Gemini 2.0 Flash Thinking�！惫雀鐰I Studio產(chǎn)品負(fù)責(zé)人Logan Kilpatrick在社交平臺(tái)X上表示。當(dāng)?shù)貢r(shí)間12月19日，谷歌釋出其首個(gè)推理模型，在Gemini 2.0 Flash之上能夠運(yùn)用思維來(lái)強(qiáng)化其推理能力�！斑@只是我們推理之旅的第一步�！盠ogan Kilpatrick稱。

從評(píng)測(cè)結(jié)果上看，谷歌的推理模型在Chatbot Arena基準(zhǔn)測(cè)試中超越了OpenAI的GPT-4o、o1-preview以及Anthropic的Claude 3.5 Sonnet等模型。但當(dāng)記者在谷歌AI Studio中試用時(shí)，詢問(wèn)“Strawberry里有幾個(gè)r”，該模型還是給出了錯(cuò)誤的回答。

OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？

圖片來(lái)源：Google AI Studio截圖

為正面狙擊OpenAI，谷歌在Sora上線一周后發(fā)布了新一代視頻模型Veo 2和升級(jí)后的圖像生成模型Imagen 3。理論上，Veo 2可生成分辨率達(dá)4k、兩分鐘或以上的視頻，但目前在谷歌平臺(tái)上僅支持生成720p、時(shí)長(zhǎng)8秒的視頻。相較而言，ChatGPT Pro付費(fèi)用戶可通過(guò)Sora生成1080p、最長(zhǎng)20秒的視頻。

此外，在谷歌霸主地位最凸顯的搜索領(lǐng)域，ChatGPT Search一度被認(rèn)為極具威脅性，相關(guān)動(dòng)態(tài)消息多次拉低谷歌股價(jià)。作為應(yīng)對(duì)，谷歌推出了“AI Overviews”概率功能，但因生成低質(zhì)量結(jié)果頻頻翻車。據(jù)硅谷科技媒體The Information最新報(bào)道，谷歌正計(jì)劃為其數(shù)十億搜索用戶提供切換到AI模式的選項(xiàng)，這種模式與AI助手Gemini幾近相同，以此來(lái)應(yīng)對(duì)ChatGPT、AI搜索引擎Perplexity等競(jìng)爭(zhēng)對(duì)手的沖擊。

AI戰(zhàn)局瞬息萬(wàn)變，搶先入局者并不一定能始終保持領(lǐng)先。在國(guó)內(nèi)，字節(jié)跳動(dòng)向來(lái)被認(rèn)為面對(duì)AI反應(yīng)遲緩，但憑借雄厚財(cái)力和頂尖人才，字節(jié)已呈現(xiàn)出趕超的趨勢(shì)。谷歌也曾被詬病錯(cuò)失了AI競(jìng)賽先機(jī)，這一科技巨頭又是否會(huì)最終迎來(lái)趕超OpenAI的機(jī)會(huì)呢？

相關(guān)熱詞： openai 模型藍(lán)鯨 agi

上一篇：今天，深圳沖出協(xié)作機(jī)器人第一股

下一篇：消息稱英偉達(dá) GB300 AI 服務(wù)器配備 1.6Tbps 光模塊、LPCAMM 內(nèi)存

OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:15:16 瀏覽：265次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？ 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:15:16 瀏覽：265次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI推出重磅o3推理模型，是遙遙領(lǐng)先，還是持續(xù)“畫(huà)餅”？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-23 20:15:16 瀏覽：265次