就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。這次發(fā)布的的 o3 系列模型是 o1 的迭代版本,考慮到可能與英國(guó)電信運(yùn)營(yíng)商 O2 存在版權(quán)或商標(biāo)沖突,OpenAI 決定跳過「o2」命名,直接采用「o3」。為此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。本次發(fā)布會(huì)由 Sam Altman、研究高級(jí)副總裁 Mark Chen 以及研究科學(xué)家 Hongyu Ren(任泓宇)主持。
值得注意的是,任泓宇本科畢業(yè)于北大,對(duì) o1 有過基礎(chǔ)性貢獻(xiàn),也是 GPT-4o 的核心開發(fā)者,曾在蘋果、微軟和英偉達(dá)有過豐富的研究實(shí)習(xí)經(jīng)歷。o3 系列包含兩款重磅模型:OpenAI o3:旗艦版本,具備強(qiáng)大的性能表現(xiàn)OpenAI o3 mini:輕量級(jí)模型,但能更快,更便宜,主打性價(jià)比先別急著高興,因?yàn)?o3 系列目前并不會(huì)向普通用戶開放,OpenAI 計(jì)劃先開放外部安全測(cè)試申請(qǐng),正式發(fā)布時(shí)間預(yù)計(jì)要到明年 1 月。現(xiàn)在,感興趣的朋友可以提交申請(qǐng):https://openai.com/index/early-access-for-safety-testing/關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
o3 性能大躍遷,死記硬背?不存在的o3 模型的「紙面參數(shù)」迎來了全方位提升。首先在 SweepBench Verified 基準(zhǔn)測(cè)試中, o3 達(dá)到了約 71.7% 的準(zhǔn)確率,直接將 o1 模型甩在身后整整 20% 之多。轉(zhuǎn)入編碼領(lǐng)域,o1 在編程競(jìng)賽平臺(tái) Codeforces 上的得分為 1891。而 o3 在開足馬力,延長(zhǎng)思考時(shí)間的情況下,得分可達(dá) 2727。
作為參照,演示人員 Mark Chen 的得分也只有 2500,充分展現(xiàn)了 o3 模型已經(jīng)具備接近甚至超越人類專業(yè)程序員的實(shí)力。在數(shù)學(xué)領(lǐng)域,o3 同樣表現(xiàn)出色。在美國(guó)數(shù)學(xué)競(jìng)賽 AIME 2024 測(cè)試中,o3 以 90.67% 的準(zhǔn)確率完全碾壓了 o1 的 83.3%。遇上衡量博士級(jí)科學(xué)問題解答能力的 GPQA Diamond 測(cè)試,o3 取得了 87.7% 的成績(jī),而 o1 僅為 78%。什么概念呢?要知道,就算是領(lǐng)域內(nèi)的博士專家,也往往只能在自己的專業(yè)范圍內(nèi)達(dá)到約70% 的準(zhǔn)確率。
面對(duì)當(dāng)前基準(zhǔn)測(cè)試接近滿分的情況,OpenAI 引入了一個(gè)全新的數(shù)學(xué)測(cè)試 EpochAI Frontier Math。這被認(rèn)為是當(dāng)前最具挑戰(zhàn)性的數(shù)學(xué)評(píng)估之一,包含了極其復(fù)雜的問題。就連專業(yè)數(shù)學(xué)家解決單個(gè)問題也需要耗費(fèi)數(shù)小時(shí)甚至數(shù)天。目前,所有現(xiàn)有模型在該測(cè)試上的準(zhǔn)確率都不足 2%,而在高算力的長(zhǎng)時(shí)間測(cè)試下,o3 卻能取得超過 2457 的分?jǐn)?shù)。
說到 AI 領(lǐng)域的圣杯 AGI,也就不得不提到 ARC-AGI 這個(gè)專門衡量 AGI 的基準(zhǔn)測(cè)試。ARC-AGI是由Keras 之父Franois Chollet 開發(fā),主要是通過圖形邏輯推理來測(cè)試模型的推理能力。
當(dāng)演示人員向另一位演示人員 Mark Chen 提出即興問題時(shí),后者準(zhǔn)確指出了任務(wù)的要求:需要計(jì)算每個(gè)黃色方塊中彩色小方塊的數(shù)量,并據(jù)此生成相應(yīng)的邊框。這些對(duì)人類來說再簡(jiǎn)單不過的任務(wù),對(duì) AI 來說卻是一道難題。
并且,ARC-AGI 的每個(gè)任務(wù)都需要不同的技能,且刻意避免重復(fù),完全杜絕了模型靠「死記硬背」取巧的可能,真正測(cè)試模型實(shí)時(shí)學(xué)習(xí)和應(yīng)用新技能的能力,F(xiàn)在,o3 在低算力的配置下得分 75.7 分。當(dāng)要求 o3 思考更長(zhǎng)時(shí)間,并且提高算力,o3 在相同的隱藏保留集上得分 87.5%,遠(yuǎn)超大多數(shù)真人。OpenAI 的言外之意就是,o3 將讓我們離 AGI 更近一步。o3 mini 重磅發(fā)布,速度更快,成本更低今年九月,OpenAI 發(fā)布了 o1 mini,具有很強(qiáng)的數(shù)學(xué)和編程能力,而且成本極低。延續(xù)這一發(fā)展方向,今天推出的 o3 mini 也保留了上述特征。即日起,該模型僅向安全研究人員開放測(cè)試申請(qǐng),截止日期為 1 月 10 日。o3 mini 支持低、中、高三種推理時(shí)間模式。用戶可根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時(shí)間。例如,復(fù)雜問題可選擇更長(zhǎng)的思考時(shí)間,而簡(jiǎn)單問題則可快速處理。
從首批評(píng)估結(jié)果來看,在衡量編程能力的 Codeforces Elo 評(píng)分中,隨著推理時(shí)間的增加,其 Elo 分?jǐn)?shù)持續(xù)攀升,在中等推理時(shí)間下就已超越 o1 mini。
演示人員要求模型使用 Python 創(chuàng)建了一個(gè)代碼生成器和執(zhí)行器,該腳本可啟動(dòng)服務(wù)器并創(chuàng)建本地用戶界面。用戶可在文本框中輸入代碼請(qǐng)求,系統(tǒng)會(huì)將請(qǐng)求發(fā)送至三種高級(jí)模式的 API,生成并執(zhí)行相應(yīng)代碼。
例如,當(dāng)要求其生成一個(gè)包含 OpenAI 和隨機(jī)數(shù)的代碼時(shí),o3 mini 的中等推理模式迅速完成了處理。另外,它還能自己測(cè)試自己,比如說在 GPQA 數(shù)據(jù)集測(cè)試中,模型以低推理模式完成了復(fù)雜數(shù)據(jù)集的評(píng)估。它下載原始文件,識(shí)別 CSS、答案和選項(xiàng),整理問題并進(jìn)行解答,最后進(jìn)行評(píng)分,僅用一分鐘就完成了自我評(píng)估,準(zhǔn)確率達(dá)到 61.62%。
在數(shù)學(xué)領(lǐng)域,o3 mini 同樣表現(xiàn)優(yōu)秀。在 AIME 數(shù)學(xué)基準(zhǔn)測(cè)試中,其低推理模式就達(dá)到了與 o1 mini 相當(dāng)?shù)男阅,中等推理模式更是超越?o1 mini,且延時(shí)更低。
另外,應(yīng)廣大開發(fā)者呼聲,o3 mini 模型也將全面支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者指令等 API 功能,F(xiàn)在,o3 mini 和 o3 的申請(qǐng)通道現(xiàn)已開放。o3 mini 預(yù)計(jì)將于 1 月向所有用戶推出,完整版 o3 則將在后續(xù)發(fā)布。
寫在最后,在這個(gè)為期 12 天的年末發(fā)布會(huì)上,OpenAI 終于祭出了壓箱底的殺手锏?梢哉f,o3 模型的發(fā)布為這場(chǎng)一度陷入「高開低走」困境的發(fā)布會(huì),畫上了一個(gè)意料之外卻又情理之中的圓滿句號(hào)。短短不到 3 個(gè)月的時(shí)間,OpenAI 就完成了 o1 模型的迭代升級(jí)。這種從 GPT 系列到 o 系列的轉(zhuǎn)型,顯然是 OpenAI 深思熟慮后的戰(zhàn)略選擇,而事后結(jié)果也證明這個(gè)決定是明智的。
不過,值得注意的是,微軟 CEO Satya Nadella 近期在一檔播客節(jié)目中表示,OpenAI 在 AI 領(lǐng)域領(lǐng)先競(jìng)爭(zhēng)對(duì)手約兩年之久。也正是這種相對(duì)寬松的競(jìng)爭(zhēng)環(huán)境,使得 OpenAI 能夠?qū)W⒂陂_發(fā) ChatGPT。然而,當(dāng)前形勢(shì)攻守易形也。Menlo Ventures 的報(bào)告顯示,ChatGPT 的市場(chǎng)份額被其他競(jìng)爭(zhēng)對(duì)手逐漸蠶食,從 2023 年的 50% 下降到了 2024 年的 34%。由「標(biāo)配」淪為「可選項(xiàng)」,ChatGPT 的光環(huán)正在褪去。
這背后的原因顯而易見,OpenAI 的「護(hù)城河」正被短命狂奔的競(jìng)爭(zhēng)對(duì)手們一寸寸填平。來自 Artificial Analysis 的調(diào)研數(shù)據(jù)清晰顯示,Anthropic 和 Google 等廠商陸續(xù)開發(fā)出性能接近 GPT-4、OpenAI o1 等新模型。并且,隨著 Scaling Law 觸及天花板,核心高管人才相繼離場(chǎng),OpenAI 過往靠單個(gè)基礎(chǔ)模型贏得的紅利正在加速消退。
在動(dòng)輒以天計(jì)的行業(yè)里,即便是今日發(fā)布的 o3 模型也很難再次創(chuàng)造長(zhǎng)達(dá) 2 年的空窗期。尤其是當(dāng) Grok-3 和 Claude 等新模型蓄勢(shì)待發(fā),留給 OpenAI 的時(shí)間或許已經(jīng)不多了。醒醒,今年最好的 AI 廠商依舊是 OpenAI,但明年或許會(huì)因?yàn)椴煌?AI 方向有無數(shù)種答案。所幸,作為用戶的我們,都將是這場(chǎng)變局中最大的贏家。