展會(huì)信息港展會(huì)大全

剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-21 06:46:32   瀏覽:212次  

導(dǎo)讀:就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。這次發(fā)布的的 o3 系列模型是 o1 的迭代版本,考慮到可能與英國(guó)電信運(yùn)營(yíng)商 O2 存在版權(quán)或商標(biāo)沖突,OpenAI 決定跳過「o2」命名,直接采用「o3」。為此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。本次發(fā)布會(huì)由 Sam Altman、研究高級(jí)副總裁 Mark Chen 以及研究科學(xué)家 Hongyu Ren(任泓宇)主持 ......

就在剛剛,OpenAI 迎來了年底 AI 春晚的收官之作。這次發(fā)布的的 o3 系列模型是 o1 的迭代版本,考慮到可能與英國(guó)電信運(yùn)營(yíng)商 O2 存在版權(quán)或商標(biāo)沖突,OpenAI 決定跳過「o2」命名,直接采用「o3」。為此,OpenAI CEO Sam Altman 更是自嘲公司在模型命名方面的混亂,原來你也知道呀。本次發(fā)布會(huì)由 Sam Altman、研究高級(jí)副總裁 Mark Chen 以及研究科學(xué)家 Hongyu Ren(任泓宇)主持。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

值得注意的是,任泓宇本科畢業(yè)于北大,對(duì) o1 有過基礎(chǔ)性貢獻(xiàn),也是 GPT-4o 的核心開發(fā)者,曾在蘋果、微軟和英偉達(dá)有過豐富的研究實(shí)習(xí)經(jīng)歷。o3 系列包含兩款重磅模型:OpenAI o3:旗艦版本,具備強(qiáng)大的性能表現(xiàn)OpenAI o3 mini:輕量級(jí)模型,但能更快,更便宜,主打性價(jià)比先別急著高興,因?yàn)?o3 系列目前并不會(huì)向普通用戶開放,OpenAI 計(jì)劃先開放外部安全測(cè)試申請(qǐng),正式發(fā)布時(shí)間預(yù)計(jì)要到明年 1 月。現(xiàn)在,感興趣的朋友可以提交申請(qǐng):https://openai.com/index/early-access-for-safety-testing/關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察

o3 性能大躍遷,死記硬背?不存在的o3 模型的「紙面參數(shù)」迎來了全方位提升。首先在 SweepBench Verified 基準(zhǔn)測(cè)試中, o3 達(dá)到了約 71.7% 的準(zhǔn)確率,直接將 o1 模型甩在身后整整 20% 之多。轉(zhuǎn)入編碼領(lǐng)域,o1 在編程競(jìng)賽平臺(tái) Codeforces 上的得分為 1891。而 o3 在開足馬力,延長(zhǎng)思考時(shí)間的情況下,得分可達(dá) 2727。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

作為參照,演示人員 Mark Chen 的得分也只有 2500,充分展現(xiàn)了 o3 模型已經(jīng)具備接近甚至超越人類專業(yè)程序員的實(shí)力。在數(shù)學(xué)領(lǐng)域,o3 同樣表現(xiàn)出色。在美國(guó)數(shù)學(xué)競(jìng)賽 AIME 2024 測(cè)試中,o3 以 90.67% 的準(zhǔn)確率完全碾壓了 o1 的 83.3%。遇上衡量博士級(jí)科學(xué)問題解答能力的 GPQA Diamond 測(cè)試,o3 取得了 87.7% 的成績(jī),而 o1 僅為 78%。什么概念呢?要知道,就算是領(lǐng)域內(nèi)的博士專家,也往往只能在自己的專業(yè)范圍內(nèi)達(dá)到約70% 的準(zhǔn)確率。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

面對(duì)當(dāng)前基準(zhǔn)測(cè)試接近滿分的情況,OpenAI 引入了一個(gè)全新的數(shù)學(xué)測(cè)試 EpochAI Frontier Math。這被認(rèn)為是當(dāng)前最具挑戰(zhàn)性的數(shù)學(xué)評(píng)估之一,包含了極其復(fù)雜的問題。就連專業(yè)數(shù)學(xué)家解決單個(gè)問題也需要耗費(fèi)數(shù)小時(shí)甚至數(shù)天。目前,所有現(xiàn)有模型在該測(cè)試上的準(zhǔn)確率都不足 2%,而在高算力的長(zhǎng)時(shí)間測(cè)試下,o3 卻能取得超過 2457 的分?jǐn)?shù)。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

說到 AI 領(lǐng)域的圣杯 AGI,也就不得不提到 ARC-AGI 這個(gè)專門衡量 AGI 的基準(zhǔn)測(cè)試。ARC-AGI是由Keras 之父Franois Chollet 開發(fā),主要是通過圖形邏輯推理來測(cè)試模型的推理能力。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

當(dāng)演示人員向另一位演示人員 Mark Chen 提出即興問題時(shí),后者準(zhǔn)確指出了任務(wù)的要求:需要計(jì)算每個(gè)黃色方塊中彩色小方塊的數(shù)量,并據(jù)此生成相應(yīng)的邊框。這些對(duì)人類來說再簡(jiǎn)單不過的任務(wù),對(duì) AI 來說卻是一道難題。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

并且,ARC-AGI 的每個(gè)任務(wù)都需要不同的技能,且刻意避免重復(fù),完全杜絕了模型靠「死記硬背」取巧的可能,真正測(cè)試模型實(shí)時(shí)學(xué)習(xí)和應(yīng)用新技能的能力,F(xiàn)在,o3 在低算力的配置下得分 75.7 分。當(dāng)要求 o3 思考更長(zhǎng)時(shí)間,并且提高算力,o3 在相同的隱藏保留集上得分 87.5%,遠(yuǎn)超大多數(shù)真人。OpenAI 的言外之意就是,o3 將讓我們離 AGI 更近一步。o3 mini 重磅發(fā)布,速度更快,成本更低今年九月,OpenAI 發(fā)布了 o1 mini,具有很強(qiáng)的數(shù)學(xué)和編程能力,而且成本極低。延續(xù)這一發(fā)展方向,今天推出的 o3 mini 也保留了上述特征。即日起,該模型僅向安全研究人員開放測(cè)試申請(qǐng),截止日期為 1 月 10 日。o3 mini 支持低、中、高三種推理時(shí)間模式。用戶可根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時(shí)間。例如,復(fù)雜問題可選擇更長(zhǎng)的思考時(shí)間,而簡(jiǎn)單問題則可快速處理。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

從首批評(píng)估結(jié)果來看,在衡量編程能力的 Codeforces Elo 評(píng)分中,隨著推理時(shí)間的增加,其 Elo 分?jǐn)?shù)持續(xù)攀升,在中等推理時(shí)間下就已超越 o1 mini。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

演示人員要求模型使用 Python 創(chuàng)建了一個(gè)代碼生成器和執(zhí)行器,該腳本可啟動(dòng)服務(wù)器并創(chuàng)建本地用戶界面。用戶可在文本框中輸入代碼請(qǐng)求,系統(tǒng)會(huì)將請(qǐng)求發(fā)送至三種高級(jí)模式的 API,生成并執(zhí)行相應(yīng)代碼。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

例如,當(dāng)要求其生成一個(gè)包含 OpenAI 和隨機(jī)數(shù)的代碼時(shí),o3 mini 的中等推理模式迅速完成了處理。另外,它還能自己測(cè)試自己,比如說在 GPQA 數(shù)據(jù)集測(cè)試中,模型以低推理模式完成了復(fù)雜數(shù)據(jù)集的評(píng)估。它下載原始文件,識(shí)別 CSS、答案和選項(xiàng),整理問題并進(jìn)行解答,最后進(jìn)行評(píng)分,僅用一分鐘就完成了自我評(píng)估,準(zhǔn)確率達(dá)到 61.62%。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

在數(shù)學(xué)領(lǐng)域,o3 mini 同樣表現(xiàn)優(yōu)秀。在 AIME 數(shù)學(xué)基準(zhǔn)測(cè)試中,其低推理模式就達(dá)到了與 o1 mini 相當(dāng)?shù)男阅,中等推理模式更是超越?o1 mini,且延時(shí)更低。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

另外,應(yīng)廣大開發(fā)者呼聲,o3 mini 模型也將全面支持函數(shù)調(diào)用、結(jié)構(gòu)化輸出和開發(fā)者指令等 API 功能,F(xiàn)在,o3 mini 和 o3 的申請(qǐng)通道現(xiàn)已開放。o3 mini 預(yù)計(jì)將于 1 月向所有用戶推出,完整版 o3 則將在后續(xù)發(fā)布。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

寫在最后,在這個(gè)為期 12 天的年末發(fā)布會(huì)上,OpenAI 終于祭出了壓箱底的殺手锏?梢哉f,o3 模型的發(fā)布為這場(chǎng)一度陷入「高開低走」困境的發(fā)布會(huì),畫上了一個(gè)意料之外卻又情理之中的圓滿句號(hào)。短短不到 3 個(gè)月的時(shí)間,OpenAI 就完成了 o1 模型的迭代升級(jí)。這種從 GPT 系列到 o 系列的轉(zhuǎn)型,顯然是 OpenAI 深思熟慮后的戰(zhàn)略選擇,而事后結(jié)果也證明這個(gè)決定是明智的。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

不過,值得注意的是,微軟 CEO Satya Nadella 近期在一檔播客節(jié)目中表示,OpenAI 在 AI 領(lǐng)域領(lǐng)先競(jìng)爭(zhēng)對(duì)手約兩年之久。也正是這種相對(duì)寬松的競(jìng)爭(zhēng)環(huán)境,使得 OpenAI 能夠?qū)W⒂陂_發(fā) ChatGPT。然而,當(dāng)前形勢(shì)攻守易形也。Menlo Ventures 的報(bào)告顯示,ChatGPT 的市場(chǎng)份額被其他競(jìng)爭(zhēng)對(duì)手逐漸蠶食,從 2023 年的 50% 下降到了 2024 年的 34%。由「標(biāo)配」淪為「可選項(xiàng)」,ChatGPT 的光環(huán)正在褪去。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

這背后的原因顯而易見,OpenAI 的「護(hù)城河」正被短命狂奔的競(jìng)爭(zhēng)對(duì)手們一寸寸填平。來自 Artificial Analysis 的調(diào)研數(shù)據(jù)清晰顯示,Anthropic 和 Google 等廠商陸續(xù)開發(fā)出性能接近 GPT-4、OpenAI o1 等新模型。并且,隨著 Scaling Law 觸及天花板,核心高管人才相繼離場(chǎng),OpenAI 過往靠單個(gè)基礎(chǔ)模型贏得的紅利正在加速消退。剛剛,OpenAI 重磅發(fā)布 o3!再次突破 AI 極限,北大校友參與研發(fā)

在動(dòng)輒以天計(jì)的行業(yè)里,即便是今日發(fā)布的 o3 模型也很難再次創(chuàng)造長(zhǎng)達(dá) 2 年的空窗期。尤其是當(dāng) Grok-3 和 Claude 等新模型蓄勢(shì)待發(fā),留給 OpenAI 的時(shí)間或許已經(jīng)不多了。醒醒,今年最好的 AI 廠商依舊是 OpenAI,但明年或許會(huì)因?yàn)椴煌?AI 方向有無數(shù)種答案。所幸,作為用戶的我們,都將是這場(chǎng)變局中最大的贏家。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港