新智元報(bào)道
【新智元導(dǎo)讀】OpenAI的「草莓」o1系列模型,居然迅雷不及掩耳地上線了!在復(fù)雜推理、數(shù)學(xué)和代碼問(wèn)題上,它又提升到了全新高度,可以說(shuō)打碎了我們對(duì)LLM固有水平的認(rèn)知。這次由Ilya奠基的工作,產(chǎn)生了全新的Scaling Law。
就在剛剛,OpenAI最強(qiáng)的o1系列模型忽然上線。毫無(wú)預(yù)警地,OpenAI就扔出這一聲炸雷。
傳說(shuō)中兩周內(nèi)就要上線的草莓模型,居然兩天內(nèi)就來(lái)了!
從今天開(kāi)始,o1-preview在ChatGPT中會(huì)向所有Plus和Team用戶推出,并且在API中向tier 5開(kāi)發(fā)者推出。
同時(shí),OpenAI還發(fā)布了o1-mini一種經(jīng)濟(jì)高效的推理模型,非常擅長(zhǎng)STEM,尤其是數(shù)學(xué)和編碼。
o1模型仍存在缺陷、局限性,它在首次使用時(shí)比長(zhǎng)期使用,更令人印象深刻
全新的o1系列,在復(fù)雜推理上的性能又提升到了一個(gè)全新級(jí)別,可以說(shuō)擁有了真正的通用推理能力。
在一系列基準(zhǔn)測(cè)試中,o1相比GPT-4o再次有了巨大提升,具有了奧數(shù)金牌能力,在物理、生物、化學(xué)問(wèn)題的基準(zhǔn)測(cè)試中,直接超過(guò)了人類博士水平!
OpenAI研究員Jason Wei表示,o1-mini是自己過(guò)去一年看到的最令人驚訝的研究成果。一個(gè)小模型,居然在AIME數(shù)學(xué)競(jìng)賽中獲得了高于60%的成績(jī)。
不過(guò),從OpenAI文章中的附錄來(lái)看,這次放出的preview和mini似乎都只是o1的「閹割版」。
推理Scaling新范式開(kāi)啟
英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)o1模型背后原理做了進(jìn)一步解析。
他表示,推理時(shí)間Scaling新范式正在大范圍普及和部署。正如Sutton在「苦澀的教訓(xùn)」中所言,只有兩種技術(shù)可以無(wú)限scaling計(jì)算能力:學(xué)習(xí)和搜索。
現(xiàn)在,是時(shí)候?qū)⒅攸c(diǎn)轉(zhuǎn)向后者了。
1. 進(jìn)行推理不需要巨大的模型。
2. 大量計(jì)算從預(yù)訓(xùn)練/后訓(xùn)練,轉(zhuǎn)移到推理服務(wù)
3. OpenAI一定很早就發(fā)現(xiàn)了推理scaling法則,而學(xué)術(shù)界最近才開(kāi)始發(fā)現(xiàn)
5. Strawberry很容易成為一個(gè)數(shù)據(jù)飛輪
以O(shè)penAI此前劃分等級(jí)來(lái)看,o1已經(jīng)實(shí)現(xiàn)了L2級(jí)別的推理能力。
有人測(cè)試后發(fā)現(xiàn),o1成功寫出一首非常難的詩(shī),在這過(guò)程中,成功完成這項(xiàng)任務(wù)所需要的計(jì)劃和思考是瘋狂的,而且推理時(shí)間計(jì)算非?。
不過(guò),AI大牛Karpathy測(cè)試o1-mini后吐槽道,「它一直拒絕為我解決黎曼假說(shuō)。模型懶惰仍是一個(gè)主要問(wèn)題,真可悲」。
還有NYU助理教授謝賽寧上手測(cè)試了「9.11和9.8誰(shuí)大」的經(jīng)典問(wèn)題,沒(méi)想到o1-preview依舊答錯(cuò)了。
「strawberry有多少r」這個(gè)經(jīng)典難題,對(duì)o1來(lái)說(shuō)自然是不在話下。
大V Mattew Sabia表示,最可怕的是,GPT-5還要比o1模型更強(qiáng)大69倍。而普通人,根本不理解大象的推理和邏輯能力。
人類真的準(zhǔn)備好了嗎?
繞暈人類的邏輯推理難題,o1解決了
我們都知道,邏輯推理對(duì)于以往的LLM來(lái)說(shuō),是很難跨越的高山。
但這一次,o1模型展現(xiàn)出的解決復(fù)雜邏輯難題的能力,讓人驚訝。
比如下面這道邏輯題
公主的年齡等于王子在未來(lái)某個(gè)時(shí)候的年齡,屆時(shí)公主的年齡將是王子過(guò)去某個(gè)時(shí)候年齡的兩倍;而在過(guò)去那個(gè)時(shí)候,公主的年齡是他們現(xiàn)在年齡總和的一半。問(wèn)公主和王子現(xiàn)在各自的年齡是多少?請(qǐng)?zhí)峁┻@個(gè)問(wèn)題的所有解。
這道題極其拗口,即使對(duì)于人類來(lái)說(shuō),想要正確地翻譯、理解題義,都會(huì)花費(fèi)好大的功夫。
令人震驚的是,o1模型在經(jīng)過(guò)一些步驟的思索后,竟然給出了正確答案!
它通過(guò)定義變量、理解問(wèn)題、解決方程等步驟,得出:公主的年齡為8k歲,王子的年齡為6k歲,其中k為正整數(shù)。
在另一個(gè)demo中,Jason Wei向我們展示了,o1是如何根據(jù)提示,就編寫了一個(gè)視頻游戲。
可以看到,他把提示復(fù)制到了o1模型中。
隨后,模型思考了21秒,將整個(gè)思考的步驟都展示了出來(lái)。
隨后,模型隨后給出了代碼。
運(yùn)行代碼后,果然是一個(gè)非常流暢的小游戲!
甚至,我們?nèi)咏oo1一串亂七八糟不知所云的韓語(yǔ)句子,要求它翻譯成英語(yǔ),它竟然也做到了。
因?yàn),雖然句子文法不通,o1卻依然一步一步對(duì)它解碼。
最終,o1給出了答案,還幽默地表示:地球上沒(méi)有翻譯器能做到,但韓國(guó)人卻很容易識(shí)別,這是一種通過(guò)元音和輔音的各種變換,來(lái)加密韓語(yǔ)的方法。
而相比之下,GPT-4o完全被繞暈了,無(wú)法理解。
可以看出,o1表現(xiàn)出的超強(qiáng)性能,將邏輯推理又提高到了一個(gè)新的級(jí)別。
它是怎么做到的?
強(qiáng)化學(xué)習(xí)立功,大模型AlphaGo時(shí)刻來(lái)臨
o1系列模型與以往不同的是,它在回答問(wèn)題之前,會(huì)用更多時(shí)間去「思考問(wèn)題」,就像人類一樣。
通過(guò)訓(xùn)練,它們學(xué)會(huì)完善思維過(guò)程,嘗試不同策略,并自主識(shí)別錯(cuò)誤。
這背后,是強(qiáng)悍的「強(qiáng)化學(xué)習(xí)」算法立了大功。想當(dāng)年,AlphaGo戰(zhàn)勝人類棋手,背后就是用的是RL算法。
它通過(guò)高度數(shù)據(jù)完成了高效的訓(xùn)練,并教會(huì)LLM使用CoT進(jìn)行富有成效的思考。
提出CoT的背后開(kāi)發(fā)者、OpenAI研究員Jason Wei表示,o1不是純粹地通過(guò)提示完成CoT,而是使用RL訓(xùn)練模型,最終更好地執(zhí)行鏈?zhǔn)剿伎肌?/p>
而且,OpenAI團(tuán)隊(duì)還發(fā)現(xiàn)模型中的Scaling Law中的「新定律」。
o1的性能,隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)間計(jì)算)投入,性能不斷提高。
這一方法,在Scaling時(shí)的限制,和LLM預(yù)訓(xùn)練的限制,大不相同。
o1的性能隨著訓(xùn)練階段和測(cè)試階段計(jì)算量的增加而平穩(wěn)提升
金牌團(tuán)隊(duì)一覽
推理研究
在奠基貢獻(xiàn)者里,離職創(chuàng)業(yè)的Ilya Sutskever赫然在列,但并沒(méi)有和Greg Brockman等人被列在執(zhí)行管理(executive leadership)中,想必是他之前的研究工作為o1奠定了基矗
Hongyu Ren
Hongyu Ren本科畢業(yè)于北大計(jì)算機(jī)科學(xué)專業(yè),并在斯坦福獲得了博士學(xué)位,從去年7月起加入OpenAI,此前曾在谷歌、蘋果、英偉達(dá)、微軟等公司有過(guò)工作經(jīng)歷。
Jason Wei
Jason Wei目前任OpenAI研究員。他在2020-2023年期間,在谷歌大腦任職,提出了著名CoT、指令微調(diào),并發(fā)表了大模型涌現(xiàn)能力的論文。
Kevin Yu
Kevin Yu現(xiàn)任OpenAI研究員。他曾在2014年和2021年分別獲得了UC伯克利物理學(xué)和天體物理學(xué)碩士和神經(jīng)學(xué)博士學(xué)位。
Shengjia Zhao
Shengjia Zhao本科畢業(yè)于清華大學(xué),同樣在斯坦福獲得了博士學(xué)位,2022年6月畢業(yè)后就加入了OpenAI技術(shù)團(tuán)隊(duì),他也是GPT-4的作者之一。
Wenda Zhou
Wenda Zhou于去年加入OpenAI。此前,他曾在紐約大學(xué)數(shù)據(jù)科學(xué)中心實(shí)驗(yàn)室,是Moore-Sloan Fellow一員。
他在2015年獲得了劍橋大學(xué)碩士學(xué)位,2020年取得了哥倫比亞大學(xué)統(tǒng)計(jì)學(xué)博士學(xué)位。
Francis Song
Francis Song曾獲得哈佛大學(xué)物理學(xué)學(xué)士學(xué)位,耶魯大學(xué)物理學(xué)博士學(xué)位。他于2022年加入OpenAI,此前曾任DeepMind的研究科學(xué)家,紐約大學(xué)助理研究科學(xué)家。
Mark Chen
Mark Chen從2018年起加入OpenAI時(shí)就開(kāi)始擔(dān)任前沿研究主管,在研究副總裁Bob McGrew領(lǐng)導(dǎo)下負(fù)責(zé)一個(gè)工作組。
從MIT畢業(yè)時(shí),Chen獲得了數(shù)學(xué)與計(jì)算機(jī)科學(xué)的雙學(xué)士學(xué)位,大學(xué)期間曾在微軟、Trading實(shí)習(xí),并在哈佛大學(xué)做過(guò)訪問(wèn)學(xué)者。
目前,他還擔(dān)任美國(guó)IOI集訓(xùn)隊(duì)的教練。
此外,領(lǐng)導(dǎo)團(tuán)隊(duì)中還包括接任Ilya的首席科學(xué)家Jakub Pachocki和OpenAI僅存的幾名聯(lián)創(chuàng)之一Wojciech Zaremba。
推理技術(shù)安全
Jieqi Yu
Jieqi Yu本科畢業(yè)于復(fù)旦大學(xué)電子工程專業(yè),曾前往香港科技大學(xué)進(jìn)行交換,之后在普林斯頓大學(xué)獲得博士學(xué)位。她曾在Facebook工作了12年之久,從軟件工程師轉(zhuǎn)型為軟件工程經(jīng)理,并于去年8月加入OpenAI擔(dān)任工程經(jīng)理。
Kai Xiao
Xiao Kai本科和博士都畢業(yè)于MIT,本科時(shí)還拿到了數(shù)學(xué)和計(jì)算機(jī)科學(xué)的雙學(xué)位,曾前往牛津大學(xué)進(jìn)行學(xué)術(shù)訪問(wèn),在DeepMind、微軟等公司有過(guò)實(shí)習(xí)經(jīng)歷,于2022年9月加入OpenAI。
Lilian Weng
Lilian Weng現(xiàn)任OpenAI安全系統(tǒng)負(fù)責(zé)人,主要從事機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等研究 。
她本科畢業(yè)于北京大學(xué)信息系統(tǒng)與計(jì)算機(jī)科學(xué)專業(yè),曾前往香港大學(xué)進(jìn)行短期交流,之后在印第安納大學(xué)布魯明頓(Indiana University Bloomington)分校獲得博士學(xué)位。
OpenAI還放出了o1模型背后團(tuán)隊(duì)的最新采訪視頻,接下來(lái)一睹為快:
團(tuán)隊(duì)完整名單如下:
生化物理,超越人類博士水平
作為OpenAI開(kāi)創(chuàng)的新系列模型,o1究竟強(qiáng)在哪?
在競(jìng)賽編程問(wèn)題(Codeforces)中排名前89%;在美國(guó)奧數(shù)競(jìng)賽預(yù)選賽(AIME),位列前500名學(xué)生之列。
最重要的是,它在物理、生物、化學(xué)問(wèn)題的基準(zhǔn)測(cè)試中(GPQA),超過(guò)了人類博士水平。
在推理常用的MATH、GSM8K等基準(zhǔn)測(cè)試上,o1和最近很多的前沿模型已經(jīng)達(dá)到了飽和表現(xiàn),很難有區(qū)分度,因此OpenAI主要選擇了AIME評(píng)估模型的數(shù)學(xué)和推理能力,以及其他人類考試和基準(zhǔn)測(cè)試。
AIME旨在挑戰(zhàn)美國(guó)最優(yōu)秀的高中學(xué)生的數(shù)學(xué)能力,在2024年的AIME考試中,GPT-4o平均僅解決了12%(1.8/15)的題目。
但o1的提升相當(dāng)顯著,平均解決了74%(11.1/15)的題目,在64個(gè)樣本中進(jìn)行多數(shù)投票時(shí)達(dá)到了83%(12.5/15)。如果使用打分函數(shù)并重新排序1000個(gè)樣本,準(zhǔn)確率甚至達(dá)到了93%(13.9/15)。
13.9的得分,意味著o1的水平達(dá)到了全國(guó)前500名學(xué)生之列,并超過(guò)了美國(guó)數(shù)學(xué)奧賽的入圍分?jǐn)?shù)。
在Codeforces、GPQA Diamond這種有挑戰(zhàn)性的任務(wù)上,o1遠(yuǎn)遠(yuǎn)超過(guò)了GPT-4o。
在具有挑戰(zhàn)性的推理基準(zhǔn)測(cè)試中,o1大幅超越了GPT-4o
GPQA Diamond測(cè)試的是化學(xué)、物理和生物學(xué)領(lǐng)域的專業(yè)知識(shí)。為了將模型與人類進(jìn)行比較,團(tuán)隊(duì)招募了擁有博士學(xué)位的專家來(lái)回答其中的問(wèn)題。
結(jié)果是,o1的表現(xiàn)(78.0)超過(guò)了這些人類專家(69.7),成為第一個(gè)在此基準(zhǔn)測(cè)試中超越人類的模型。
然而,這個(gè)結(jié)果并不意味著o1在所有方面都強(qiáng)于擁有博士學(xué)位的人類,僅僅表明它能更熟練地解決一些相應(yīng)水平的問(wèn)題。
此外,在MATH、MMLU、MathVista等基準(zhǔn)測(cè)試中,o1也刷新了SOTA。
啟用視覺(jué)感知能力后,o1在MMMU上取得了78.1%的成績(jī),成為第一個(gè)能與人類專家競(jìng)爭(zhēng)的模型,在57個(gè)MMLU子類別中,有54個(gè)類別超過(guò)了GPT-4o。
o1在廣泛的基準(zhǔn)測(cè)試中優(yōu)于GPT-4o,包括54/57個(gè)MMLU子類
思維鏈
通過(guò)強(qiáng)化學(xué)習(xí),o1學(xué)會(huì)了識(shí)別并糾正自己的錯(cuò)誤,并將復(fù)雜的步驟分解為更簡(jiǎn)單的步驟。
在當(dāng)前方法不起作用時(shí),它還會(huì)嘗試不同的方法。這個(gè)過(guò)程顯著提高了模型的推理能力。
舉個(gè)「密碼學(xué)」的例子。
題面是:「Think step by step」經(jīng)過(guò)加密之后對(duì)應(yīng)的是「oyfjdnisdr rtqwainr acxz mynzbhhx」,問(wèn)「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」的意思是什么。
可以看到,GPT-4o對(duì)這種題目完全是束手無(wú)策。
而o1則根據(jù)已知信息推理出了加密計(jì)算的方法,并最終給出了正確答案THERE ARE THREE R'S IN STRAWBERRY。
GPT-4o
o1-preview
編程
在這項(xiàng)評(píng)測(cè)中,OpenAI基于o1進(jìn)一步訓(xùn)練出了一個(gè)編程加強(qiáng)版模型。
過(guò)程中,模型有十個(gè)小時(shí)來(lái)解決六個(gè)具有挑戰(zhàn)性的算法問(wèn)題,每個(gè)問(wèn)題允許提交50次。
而在放寬提交限制的情況下,模型的性能可以獲得顯著提升。當(dāng)每個(gè)問(wèn)題允許1萬(wàn)次提交時(shí),模型達(dá)到了362.14分超過(guò)了金牌的門檻。
最后,OpenAI還模擬了由Codeforces舉辦的競(jìng)技編程比賽嚴(yán)格遵循規(guī)則,并允許10次提交。
GPT-4o的Elo評(píng)分為808,位于人類選手11%的位置。而新模型則遠(yuǎn)遠(yuǎn)超過(guò)了GPT-4o和o1,達(dá)到了1807的高分,表現(xiàn)優(yōu)于93%的選手。
在編程競(jìng)賽上進(jìn)一步微調(diào)提升了o1:經(jīng)過(guò)改進(jìn)的模型在2024年國(guó)際信息學(xué)奧林匹克競(jìng)賽中,在比賽規(guī)則下排名在第49百分位
人類偏好評(píng)估
除了考試和學(xué)術(shù)基準(zhǔn)測(cè)試之外,OpenAI還評(píng)估了人類對(duì)o1-preview與GPT-4o在廣泛領(lǐng)域內(nèi)具有挑戰(zhàn)性、開(kāi)放性提示詞上的偏好。
在此評(píng)估中,人類會(huì)看到o1-preview和GPT-4o對(duì)提示詞的匿名響應(yīng),并投票選擇他們更喜歡哪個(gè)響應(yīng)。
在數(shù)據(jù)分析、編程和數(shù)學(xué)等重推理的類別中,人們更傾向于選擇o1-preview。但在一些自然語(yǔ)言任務(wù)中,GPT-4o更勝一籌。
也就是說(shuō),o1-preview目前并不適合所有的使用場(chǎng)景。
在推理能力更重要的領(lǐng)域,人們更傾向于選擇o1-preview
o1-mini性價(jià)比極高
為了給開(kāi)發(fā)人員提供更高效的解決方案,OpenAI發(fā)布了o1-mini一種更快、更便宜的推理模型。
作為一種較小的模型,o1-mini比o1-preview便宜80%。
這對(duì)于需要推理,但不需要通用世界知識(shí)的應(yīng)用程序來(lái)說(shuō),它是一種功能強(qiáng)大、性價(jià)比高的模型。
不過(guò),目前的o1系列依然處在早期,諸如網(wǎng)絡(luò)插件、長(zhǎng)傳文件、圖片等能力,還未集成。在短期內(nèi),GPT-4o仍是最強(qiáng)的實(shí)力選手。