展會(huì)信息港展會(huì)大全

OpenAI推出重磅o3推理模型,是遙遙領(lǐng)先,還是持續(xù)“畫(huà)餅”?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-23 20:15:16   瀏覽:265次  

導(dǎo)讀:圖片來(lái)源:視覺(jué)中國(guó)藍(lán)鯨新聞12月23日訊(記者 朱俊熹)在“雙十二”活動(dòng)的最后一天,OpenAI終于扔下重磅:o3推理模型。當(dāng)?shù)貢r(shí)間12月20日發(fā)布的o3模型,是9月推出的o1推理模型的下一代。為避免與英國(guó)電信運(yùn)營(yíng)商O(píng)2發(fā)生版權(quán)或商標(biāo)沖突,OpenAI選擇跳過(guò)o2并直接將新模型命名為o3。繼谷歌前一天發(fā)布推理模型后,OpenAI很快釋出最新的o3模型,似乎想要證明自己在模型層面依然保持領(lǐng)先 ......

OpenAI推出重磅o3推理模型,是遙遙領(lǐng)先,還是持續(xù)“畫(huà)餅”?

圖片來(lái)源:視覺(jué)中國(guó)

藍(lán)鯨新聞12月23日訊(記者 朱俊熹)在“雙十二”活動(dòng)的最后一天,OpenAI終于扔下重磅:o3推理模型。當(dāng)?shù)貢r(shí)間12月20日發(fā)布的o3模型,是9月推出的o1推理模型的下一代。為避免與英國(guó)電信運(yùn)營(yíng)商O(píng)2發(fā)生版權(quán)或商標(biāo)沖突,OpenAI選擇跳過(guò)o2并直接將新模型命名為o3。

繼谷歌前一天發(fā)布推理模型后,OpenAI很快釋出最新的o3模型,似乎想要證明自己在模型層面依然保持領(lǐng)先身位。

據(jù)OpenAI介紹,o3能夠進(jìn)行復(fù)雜任務(wù)的推理,在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的表現(xiàn)要優(yōu)于前一代o1模型,同時(shí)花費(fèi)的處理時(shí)間也會(huì)更長(zhǎng)。以一項(xiàng)評(píng)估AI高級(jí)數(shù)學(xué)推理能力的測(cè)試EpochAI Frontier Math為例,以往所有模型都未達(dá)到2%的準(zhǔn)確率,而o3準(zhǔn)確率達(dá)到了創(chuàng)紀(jì)錄的25%。

o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關(guān)基準(zhǔn)測(cè)試ARC-AGI中,高配版o3得分為87.5%,低計(jì)算設(shè)置下o3得分為75.7%,是o1模型的三倍。但高計(jì)算模式需要花費(fèi)極其昂貴的成本,每個(gè)任務(wù)高達(dá)數(shù)千美元,低計(jì)算模式則需要20美元左右。

“我并不認(rèn)為o3就是AGI。o3在一些非常簡(jiǎn)單的任務(wù)上仍然失敗,表明它與人類智能存在根本差異!ARC-AGI測(cè)試創(chuàng)建者Franois Chollet表示。他們依然能創(chuàng)建具有挑戰(zhàn)性且未被充分測(cè)試的基準(zhǔn),而當(dāng)設(shè)計(jì)出對(duì)普通人容易但對(duì)AI難的任務(wù)變得不可能時(shí),才意味著AGI的真正到來(lái)。

OpenAI稱,較小版本的o3-mini將于明年1月底推出,隨后推出完整版o3。OpenAI正為安全研究人員開(kāi)放申請(qǐng)流程,邀請(qǐng)他們搶先體驗(yàn)o3模型,作為現(xiàn)有測(cè)試流程的補(bǔ)充。

回顧OpenAI“雙十二”:期貨大放出,產(chǎn)品更新缺乏新意

一位AI從業(yè)者在跟完OpenAI連續(xù)12個(gè)工作日的直播后直呼失望。“OpenAI只是在不停地填過(guò)去的坑。o3模型的發(fā)布仍然是一個(gè)‘畫(huà)餅’行為,要在實(shí)際使用之后,才能確定它到底怎么樣!他對(duì)藍(lán)鯨新聞表示。

與以往一小時(shí)內(nèi)快節(jié)奏、高密度的新品發(fā)布會(huì)不同,此次活動(dòng)的每日直播時(shí)長(zhǎng)在10到20分鐘不等,觀感上也缺少了一些震撼的感覺(jué)。CEO Sam Altman僅出現(xiàn)4次,除去o3模型發(fā)布日,其他場(chǎng)次大多在上線之前的期貨,包括完整版o1模型、視頻生成模型Sora、在蘋(píng)果中正式接入ChatGPT等。

在12月5日活動(dòng)首日,OpenAI發(fā)布了推理模型o1的正式版本,并于第二天圍繞該模型推出了強(qiáng)化微調(diào)功能。普通用戶如想無(wú)限制訪問(wèn)o1、o1 pro在內(nèi)的所有模型,需每月花費(fèi)200美元,購(gòu)買最新的付費(fèi)套餐ChatGPT Pro。此前ChatGPT基礎(chǔ)付費(fèi)服務(wù)為每月20美元。在接受彭博社采訪時(shí),OpenAI首席財(cái)務(wù)官Sarah Friar并未否認(rèn)未來(lái)ChatGPT訂閱費(fèi)用將可能升至2000美元/月,“如果它真的能幫助我在做任何事情時(shí)都擁有一個(gè)博士級(jí)的助手”。

OpenAI的新技術(shù)從發(fā)布到正式可用之間通常存在一定的等待時(shí)間,最具代表性的就是其視頻模型Sora。12月9日,Sora在發(fā)布298天后終于正式上線,因大量用戶涌入Sora網(wǎng)站,一度導(dǎo)致服務(wù)器被迫暫時(shí)關(guān)閉。

Sora沉寂期間,視頻生成賽道出現(xiàn)了大量追趕者。如國(guó)外的谷歌、Runway、Luma AI,以及國(guó)內(nèi)的快手、字節(jié)跳動(dòng)、騰訊、生數(shù)科技、愛(ài)詩(shī)科技等公司都發(fā)布了視頻模型。有AI視頻創(chuàng)作者告訴藍(lán)鯨新聞,從視頻底層模型和生成質(zhì)量來(lái)看,并未感覺(jué)到Sora與可靈、即夢(mèng)、海螺等國(guó)產(chǎn)模型有明顯差距,甚至在性價(jià)比上還稍顯遜色。

在此輪“雙十二”活動(dòng)中,OpenAI還推出了七個(gè)月前演示過(guò)的實(shí)時(shí)視頻功能,并向所有ChatGPT用戶開(kāi)放了10月推出的搜索服務(wù)。在5月發(fā)布GPT-4o時(shí),OpenAI曾預(yù)覽了具備實(shí)時(shí)視頻和屏幕共享功能的高級(jí)語(yǔ)音模式,此后卻多次推遲上線。而ChatGPT Search在剛推出時(shí),僅面向部分付費(fèi)用戶開(kāi)放。

除了上線期貨,OpenAI也圍繞著用戶體驗(yàn)提升、產(chǎn)品優(yōu)化作出了多項(xiàng)更新。例如在活動(dòng)第四日,OpenAI將Canvas的使用權(quán)限由付費(fèi)用戶擴(kuò)展至所有用戶,該工具主要用于和ChatGPT合作進(jìn)行寫(xiě)作與編碼。OpenAI還在ChatGPT中新增了“項(xiàng)目”功能,便于用戶自行創(chuàng)建文件夾,將對(duì)話、文檔等各種功能集中到一處。

但這些產(chǎn)品功能并非由OpenAI首創(chuàng),事實(shí)上早在幾個(gè)月前,其最大競(jìng)爭(zhēng)對(duì)手、AI初創(chuàng)企業(yè)Anthropic就推出過(guò)類似的功能。有AI從業(yè)者表示,從用戶體驗(yàn)、交互設(shè)計(jì)上看,Anthropic的AI助手Claude會(huì)呈現(xiàn)出更積極的創(chuàng)新姿態(tài),OpenAI更像是參照著競(jìng)爭(zhēng)對(duì)手來(lái)完善ChatGPT這一產(chǎn)品。

前十一天直播過(guò)后,一些質(zhì)疑的聲音開(kāi)始越來(lái)越大:OpenAI是否因?yàn)槟P偷庥銎款i,才更多地轉(zhuǎn)向了對(duì)現(xiàn)有應(yīng)用的完善。對(duì)此,字節(jié)跳動(dòng)旗下云服務(wù)平臺(tái)火山引擎的總裁譚待在近期一場(chǎng)媒體群訪中表示,OpenAI最初就是一家在技術(shù)和應(yīng)用方面都表現(xiàn)出色的公司,大模型的火爆正是源于ChatGPT產(chǎn)品的發(fā)布。而技術(shù)和應(yīng)用是齊頭并進(jìn)的,隨著模型的提升,應(yīng)用的形態(tài)也會(huì)不斷發(fā)生變化,不僅僅是chatbot(聊天助手)。

收官日放出的o3模型再次表明,OpenAI這家AI領(lǐng)軍者在進(jìn)一步轉(zhuǎn)向新的推理范式,以期解決Scaling Law收益遞減、預(yù)訓(xùn)練數(shù)據(jù)短缺等困難。

推理、視頻、搜索,谷歌正面狙擊OpenAI

在爭(zhēng)搶公眾關(guān)注焦點(diǎn)方面,OpenAI和巨頭谷歌早有糾葛。今年5月,OpenAI恰好在谷歌I/O開(kāi)發(fā)者大會(huì)前一天舉辦發(fā)布會(huì),用多模態(tài)大模型GPT-4o搶盡風(fēng)頭。在此次OpenAI“雙十二”活動(dòng)期間,雙方再度正面對(duì)壘。谷歌先后發(fā)布多項(xiàng)重大更新,包括量子芯片Willow、新一代大模型Gemini 2.0、推理模型、視頻和圖像模型等。

當(dāng)?shù)貢r(shí)間12月11日,谷歌推出了Gemini 2.0 Flash實(shí)驗(yàn)版本,是其2.0系列的首個(gè)模型。據(jù)谷歌介紹,相較于前代模型,Gemini 2.0 Flash具備低延遲和增強(qiáng)性能,在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)領(lǐng)先。除了支持圖像、視頻和音頻等多模態(tài)輸入外,該模型還支持多模態(tài)輸出。目前實(shí)驗(yàn)?zāi)P鸵严蛩蠫emini用戶開(kāi)放,完整版本將于明年1月全面上市。

谷歌母公司Alphabet首席執(zhí)行官Sundar Pichai在博客中指出,Gemini 2.0這一“迄今功能最強(qiáng)大的模型”是為智能體時(shí)代構(gòu)建的。借助新的多模態(tài)進(jìn)展以及各種原生工具,能夠打造全新的AI智能體,更接近通用助手的愿景!叭绻f(shuō)Gemini 1.0的核心是組織和理解信息,那么Gemini 2.0的目標(biāo)就是讓信息更加有用!彼硎。

同步推出的還有谷歌正在探索的一系列智能體項(xiàng)目。此前曾預(yù)覽過(guò)的Project Astra基于Gemini 2.0迎來(lái)更新,該智能體支持高級(jí)視覺(jué)和語(yǔ)音交互,現(xiàn)在語(yǔ)言能力、工具屬性、記憶能力都得到了升級(jí),谷歌還預(yù)告將在原型眼鏡上對(duì)其進(jìn)行測(cè)試。除此之外,谷歌還介紹了能像人類一樣使用網(wǎng)站的智能體Project Mariner,以及一款編碼智能體Jules。

AI智能體正成為國(guó)內(nèi)外大模型公司押注的主流方向。Anthropic在10月推出了能夠接管人類計(jì)算機(jī)的智能體,可執(zhí)行解釋屏幕內(nèi)容、輸入文本、瀏覽網(wǎng)站等任務(wù)。國(guó)內(nèi)方面,百度、字節(jié)、騰訊等大廠和智譜AI等創(chuàng)企也在加碼布局智能體。盡管此前曾傳出OpenAI正在準(zhǔn)備類似Anthropic的智能體,但并未如公眾預(yù)期般,在此次連更活動(dòng)中就亮相。

“就在你以為一切都結(jié)束了的時(shí)候……我們推出了Gemini 2.0 Flash Thinking!惫雀鐰I Studio產(chǎn)品負(fù)責(zé)人Logan Kilpatrick在社交平臺(tái)X上表示。當(dāng)?shù)貢r(shí)間12月19日,谷歌釋出其首個(gè)推理模型,在Gemini 2.0 Flash之上能夠運(yùn)用思維來(lái)強(qiáng)化其推理能力!斑@只是我們推理之旅的第一步!盠ogan Kilpatrick稱。

從評(píng)測(cè)結(jié)果上看,谷歌的推理模型在Chatbot Arena基準(zhǔn)測(cè)試中超越了OpenAI的GPT-4o、o1-preview以及Anthropic的Claude 3.5 Sonnet等模型。但當(dāng)記者在谷歌AI Studio中試用時(shí),詢問(wèn)“Strawberry里有幾個(gè)r”,該模型還是給出了錯(cuò)誤的回答。

OpenAI推出重磅o3推理模型,是遙遙領(lǐng)先,還是持續(xù)“畫(huà)餅”?

圖片來(lái)源:Google AI Studio截圖

為正面狙擊OpenAI,谷歌在Sora上線一周后發(fā)布了新一代視頻模型Veo 2和升級(jí)后的圖像生成模型Imagen 3。理論上,Veo 2可生成分辨率達(dá)4k、兩分鐘或以上的視頻,但目前在谷歌平臺(tái)上僅支持生成720p、時(shí)長(zhǎng)8秒的視頻。相較而言,ChatGPT Pro付費(fèi)用戶可通過(guò)Sora生成1080p、最長(zhǎng)20秒的視頻。

此外,在谷歌霸主地位最凸顯的搜索領(lǐng)域,ChatGPT Search一度被認(rèn)為極具威脅性,相關(guān)動(dòng)態(tài)消息多次拉低谷歌股價(jià)。作為應(yīng)對(duì),谷歌推出了“AI Overviews”概率功能,但因生成低質(zhì)量結(jié)果頻頻翻車。據(jù)硅谷科技媒體The Information最新報(bào)道,谷歌正計(jì)劃為其數(shù)十億搜索用戶提供切換到AI模式的選項(xiàng),這種模式與AI助手Gemini幾近相同,以此來(lái)應(yīng)對(duì)ChatGPT、AI搜索引擎Perplexity等競(jìng)爭(zhēng)對(duì)手的沖擊。

AI戰(zhàn)局瞬息萬(wàn)變,搶先入局者并不一定能始終保持領(lǐng)先。在國(guó)內(nèi),字節(jié)跳動(dòng)向來(lái)被認(rèn)為面對(duì)AI反應(yīng)遲緩,但憑借雄厚財(cái)力和頂尖人才,字節(jié)已呈現(xiàn)出趕超的趨勢(shì)。谷歌也曾被詬病錯(cuò)失了AI競(jìng)賽先機(jī),這一科技巨頭又是否會(huì)最終迎來(lái)趕超OpenAI的機(jī)會(huì)呢?

贊助本站

相關(guān)熱詞: openai 模型 藍(lán)鯨 agi

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港