文 | 田哲
編輯 | 蘇建勛
12月6日凌晨2點(diǎn),OpenAI開啟了12天工作日的首場直播。此次直播,OpenAI推出了o1模型,以及新的訂閱服務(wù)ChatGPT Pro。自今天起,o1模型將取代o1-preview模型,ChatGPT Plus和Pro訂閱用戶均可使用。
今年9月,OpenAI正式推出o1大模型,可針對(duì)科學(xué)、代碼和數(shù)學(xué)等領(lǐng)域的復(fù)雜問題解答,不過,彼時(shí)僅推出o1-preview、o1 mini兩個(gè)版本,未解鎖o1模型的全部能力。而此次發(fā)布會(huì)推出的o1模型,在智能化、多模態(tài)輸入、思考速度等方面均有所提高。
OpenAI聯(lián)合創(chuàng)始人、首席執(zhí)行官Sam Altman表示,相對(duì)o1-preview,o1模型的重大錯(cuò)誤率相比o1-preview減少了約 34%,而思考速度提升了約 50%。
他介紹,o1之所以與眾不同,是其每次在回答之前都會(huì)思考,這使得它能夠提供比其他模型更詳細(xì)、更正確的答案。
o1的智能化體現(xiàn)在數(shù)學(xué)等復(fù)雜問題具備更高的準(zhǔn)確率。據(jù)悉,o1模型在解答AIME 2024數(shù)學(xué)競賽、博士級(jí)科學(xué)問題的準(zhǔn)確率分別達(dá)到78.3%、75.6%,比o1-Preview的準(zhǔn)確率分別高出28.3%,1.5%。
回答速度方面,o1也有所提升。在離線測試情況下,o1的平均響應(yīng)速度比 O1 預(yù)覽版快了約 60%。OpenAI員工在直播中提出一個(gè)問題,分別要求o1、o1-Preview列舉公元2世紀(jì)的羅馬皇帝,并簡述他們的生平。結(jié)果顯示,o1只花了約14秒解答,而o1-Preview耗費(fèi)33秒。
OpenAI還注意到模型之前對(duì)所有問題都有較長的相應(yīng)時(shí)間,他們已經(jīng)修復(fù)這一問題,F(xiàn)在,如果你提出一個(gè)簡單的問題,o1會(huì)快速作答;如果提出了一個(gè)復(fù)雜的問題,它會(huì)花更長的時(shí)間思考。
此外,o1新增多模態(tài)輸入能力,能同時(shí)處理圖片和文本內(nèi)容,并進(jìn)行推理。
OpenAI展示了一張手繪草圖的A4紙,畫有太陽、冷卻系統(tǒng)等物體,以及不同數(shù)值,拍照上傳給o1。o1在沒有任何提示的情況下,生成用戶可能想問的問題,并自動(dòng)解答。接著在不到10秒的時(shí)間,o1不僅成功理解了草圖的問題要求,還意識(shí)到?jīng)]有提供的參數(shù),自我推理給出了正確答案。
考慮到用戶希望不受調(diào)用限制使用模型的需求,OpenAI此次推出了新的訂閱機(jī)制ChatGPT Pro,用戶每月付費(fèi)200美元即可無限制使用更強(qiáng)的o1模型o1 Pro。
OpenAI展示了o1-Prevew、o1、o1 Pro在數(shù)學(xué)競賽、代碼競賽、博士級(jí)科學(xué)問題的回答差異,在每個(gè)問題詢問四次后,o1 Pro的可靠準(zhǔn)確率最高,分別為80.0%、74.9%、74.2%。
來源:OpenAI
在直播中,OpenAI提出了一個(gè)o1-Preview回答錯(cuò)誤的化學(xué)問題,要求o1 Pro找到符合特定標(biāo)準(zhǔn)的蛋白質(zhì)。結(jié)果顯示,o1 Pro僅耗費(fèi)53秒完成答題,并允許用戶查看思考過程。
OpenAI表示,他們計(jì)劃讓o1 Pro支持更多高計(jì)算密集型任務(wù),允許處理更長和更復(fù)雜的任務(wù)。此外,o1 Pro還將新增網(wǎng)絡(luò)瀏覽、文件上傳和增強(qiáng)的API支持(例如結(jié)構(gòu)化輸出、函數(shù)調(diào)用和圖像理解)功能。