科技新聞?dòng)?9月13日消息,據(jù)國(guó)外媒體報(bào)道,美國(guó)當(dāng)?shù)貢r(shí)間周四,OpenAI推出了名為OpenAI o1的新人工智能模型,這也是其首個(gè)具有“推理”能力的大模型,它能通過(guò)類(lèi)似人類(lèi)的推理過(guò)程來(lái)逐步分析問(wèn)題,直至得出正確結(jié)論。
OpenAI o1有o1-preview和o1-mini兩個(gè)版本,僅支持文本,向所有ChatGPT的Plus和Team用戶推出,并在API中向Tier 5開(kāi)發(fā)者推出。根據(jù)OpenAI官網(wǎng)的評(píng)測(cè),這款模型尤其擅長(zhǎng)處理數(shù)學(xué)和代碼問(wèn)題,甚至在物理、生物和化學(xué)問(wèn)題基準(zhǔn)測(cè)試中的準(zhǔn)確度超過(guò)了人類(lèi)博士水平。
此外,OpenAI o1在物理、化學(xué)、數(shù)學(xué)、邏輯等多維度的基準(zhǔn)測(cè)試中,水平均超過(guò)了GPT-4o:
(GPT-4o和01基準(zhǔn)測(cè)試對(duì)比,來(lái)源:OpenAI)
比博士還聰明的OpenAI o1,調(diào)動(dòng)了全球的AI名人好奇心,除了OpenAI的多位高管,英偉達(dá)高級(jí)科學(xué)家Jim Fan、紐約大學(xué)教授、美國(guó)知名AI學(xué)者加里馬庫(kù)斯(Gary Marcus)、卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)博士生詹姆斯坎貝爾(James Campbell)等紛紛一睹為快,并在X上表達(dá)自己的看法。
我們匯總了全球11位關(guān)注AI的知名企業(yè)家、科學(xué)家的看法,有意思的是,整體的評(píng)價(jià)態(tài)度基本分為兩個(gè)陣營(yíng):
一個(gè)陣營(yíng)以O(shè)penAI的高管和研究員為代表,他們大多數(shù)都給了“好評(píng)”,認(rèn)為新模型開(kāi)啟了新一輪的AI技術(shù)范式,幫助大模型走向更復(fù)雜的推理時(shí)代;而在OpenAI之外的多數(shù)“編外人士”,給出的評(píng)價(jià)相對(duì)克制,雖然沒(méi)有否定OpenAI o1的創(chuàng)新,但他們認(rèn)為新模型的能力還沒(méi)有被充分測(cè)試,并且它距離AGI依舊很遙遠(yuǎn)。
“好評(píng)”陣營(yíng):OpenAI o1打開(kāi)了新的技術(shù)范式在OpenAI發(fā)布OpenAI o1預(yù)覽版及其極速版OpenAI o1-mini之后,該公司多位高管以及研究人員發(fā)帖,認(rèn)為新模型將AI推向更復(fù)雜的推理時(shí)代。
OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman):OpenAI o1是我們迄今為止最強(qiáng)大的人工智能模型。盡管它并非盡善盡美,仍帶有一定的缺陷與局限性,但初次體驗(yàn)便足以令人印象深刻。更重要的是,這也預(yù)示一個(gè)新范式的誕生人工智能已邁入能夠進(jìn)行廣泛而復(fù)雜推理的新時(shí)代。
OpenAI總裁格雷格布羅克曼(Greg Brockman):OpenAI o1是我們首個(gè)通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的模型,它在回答問(wèn)題之前會(huì)進(jìn)行深思熟慮。這是一個(gè)充滿巨大機(jī)遇的新模型,無(wú)論在數(shù)量(推理度量已有顯著提升)還是質(zhì)量(通過(guò)簡(jiǎn)單英語(yǔ)“閱讀模型的思維”,忠實(shí)的思維鏈讓模型變得更可解釋?zhuān)┥,都有明顯改進(jìn)。
這項(xiàng)技術(shù)仍處于早期階段,帶來(lái)了新的安全機(jī)會(huì),我們正在積極探索,包括可靠性、幻覺(jué)問(wèn)題以及對(duì)抗性攻擊的魯棒性。
思維鏈作者、OpenAI研究員Jason Wei:OpenAI o1是一個(gè)在給出最終答案之前會(huì)進(jìn)行思考的模型,它不僅僅通過(guò)提示來(lái)訓(xùn)練思維鏈,而是通過(guò)強(qiáng)化學(xué)習(xí)讓模型更好地完成思考過(guò)程。
在深度學(xué)習(xí)的歷史上,我們一直在擴(kuò)展訓(xùn)練計(jì)算,但思維鏈?zhǔn)且环N自適應(yīng)計(jì)算方式,也能在推理時(shí)進(jìn)行擴(kuò)展。
雖然OpenAI o1在AIME和GPQA的測(cè)試中顯得很強(qiáng)大,但不一定能直接轉(zhuǎn)化為用戶可以感受到的效果。即使對(duì)科學(xué)工作者來(lái)說(shuō),找出GPT-4不如OpenAI o1的提示并不容易,但一旦找到,你會(huì)覺(jué)得非常驚奇。我們都需要找到更具挑戰(zhàn)性的提示。
人工智能用人類(lèi)語(yǔ)言模擬思維鏈在很多方面表現(xiàn)出色。這個(gè)模型能像人類(lèi)一樣處理問(wèn)題,比如將復(fù)雜的步驟拆解成簡(jiǎn)單的步驟、識(shí)別并糾正錯(cuò)誤,以及嘗試不同的方法。
這個(gè)領(lǐng)域已經(jīng)被完全重新定義了。
OpenAI研究員馬克斯施瓦澤(Max Schwarzer):我一直認(rèn)為,你不需要一個(gè)GPT-6級(jí)的基礎(chǔ)模型來(lái)實(shí)現(xiàn)人類(lèi)水平的推理能力,強(qiáng)化學(xué)習(xí)才是通往AGI的關(guān)鍵。今天,我們有了證明OpenAI o1。
作為OpenAI創(chuàng)始成員之一,前特斯拉AI高級(jí)總監(jiān)安德烈卡帕西(Andrej Karpathy)的評(píng)論畫(huà)風(fēng)格外不同,他吐槽了模型的“懶惰”問(wèn)題:OpenAI o1-mini一直拒絕為我解決黎曼假設(shè)(Riemann Hypothesis),模型的“懶惰”仍然是一個(gè)主要問(wèn)題。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan和卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)博士生詹姆斯坎貝爾(James Campbell)雖然不是OpenAI工作人員,也給了好評(píng)。
英偉達(dá)高級(jí)研究科學(xué)家Jim Fan: 這可能是自2022年原始Chinchilla縮放定律以來(lái),大語(yǔ)言模型研究中最重要的進(jìn)展。關(guān)鍵在于兩個(gè)曲線的協(xié)同作用,而不是單一曲線。人們通過(guò)延伸訓(xùn)練縮放定律來(lái)預(yù)測(cè)大語(yǔ)言模型能力將陷入停滯,卻未曾預(yù)見(jiàn)到推理縮放才是真正打破收益遞減的關(guān)鍵。
我在2月份曾提到,任何自我提升的大語(yǔ)言模型算法都沒(méi)能在三輪之后取得顯著進(jìn)展。沒(méi)有人能在大語(yǔ)言模型領(lǐng)域重現(xiàn)AlphaGo的成功,在這個(gè)領(lǐng)域,更多的計(jì)算能力將可達(dá)到超越人類(lèi)的水平。不過(guò),現(xiàn)在我們翻開(kāi)了新的一頁(yè)。
博士生坎貝爾 VS 奧特曼:卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)博士生詹姆斯坎貝爾(James Campbell)發(fā)帖,展示了OpenAI o1預(yù)覽版在美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME)上的表現(xiàn),顯示其解答了83%的問(wèn)題。相較之下,GPT - 4o僅解答出13%的問(wèn)題?藏悹枌(xiě)道:“一切都結(jié)束了!” 對(duì)此,OpenAI首席執(zhí)行官山姆奧特曼(Sam Altman)回復(fù)稱:“我們還會(huì)回來(lái)的!”
“中差評(píng)”陣營(yíng):買(mǎi)家需謹(jǐn)慎,它并沒(méi)有那么聰明HuggingFace首席執(zhí)行官兼聯(lián)合創(chuàng)始人克萊門(mén)特德蘭吉(Clement Delangue):再一次,人工智能系統(tǒng)并不是在“思考”,而是在“處理”和“運(yùn)行預(yù)測(cè)”就像谷歌或電腦一樣。這種技術(shù)往往給人一種錯(cuò)誤的印象,讓你覺(jué)得這些系統(tǒng)像人類(lèi)一樣智能,但這只是廉價(jià)的宣傳和營(yíng)銷(xiāo)策略,讓你覺(jué)得它們比實(shí)際情況更聰明。
紐約大學(xué)教授、美國(guó)知名AI學(xué)者加里馬庫(kù)斯(Gary Marcus):OpenAI關(guān)于GPT的新模型確實(shí)令人印象深刻,但是:
1. 它不是AGI(通用人工智能),而且距離這個(gè)目標(biāo)還很遠(yuǎn)。
2.仔細(xì)閱讀并理解其中的細(xì)節(jié)。關(guān)于它如何工作的細(xì)節(jié)并不多,已測(cè)試的內(nèi)容也沒(méi)有全面披露。它與GPT-4的其余部分并未完全整合。(為什么?)
3.完整的新模型并未向付費(fèi)訂閱者發(fā)布,只推出了一個(gè)迷你版和預(yù)覽版。因此,業(yè)界還未能對(duì)其進(jìn)行充分測(cè)試。
4.報(bào)告顯示,OpenAI o1在許多領(lǐng)域表現(xiàn)良好,但在某些方面舊模型表現(xiàn)更佳。它并不是一個(gè)全面超越舊模型的神奇改進(jìn)。
5.我們不清楚具體的訓(xùn)練內(nèi)容,但即使是一些基礎(chǔ)任務(wù),如井字棋(tic-tac-toe),也存在問(wèn)題。
6.OpenAI夸大了它在法律考試上的成功,經(jīng)過(guò)仔細(xì)審查,這些說(shuō)法經(jīng)不起推敲。科學(xué)審查需要時(shí)間,目前這些結(jié)果尚未經(jīng)過(guò)同行評(píng)審。
7.它聲稱能在幾秒鐘內(nèi)完成的任務(wù),若給它一個(gè)月時(shí)間,可能會(huì)讓人驚訝。但如果給它一個(gè)高度專(zhuān)業(yè)化的任務(wù),比如編寫(xiě)復(fù)雜的軟件代碼,它可能會(huì)令人失望,因?yàn)镺penAI希望你認(rèn)為它無(wú)所不能。
8. 買(mǎi)家需謹(jǐn)慎。
沃頓商學(xué)院管理學(xué)教授伊森莫里克(Ethan Mollick) :我已經(jīng)用了1個(gè)月的“草莓”(OpenAI o1),它在許多方面都很驚人,但也有些限制。也許最重要的是,這是一個(gè)信號(hào),表明了未來(lái)事情的發(fā)展方向。
新的人工智能模型被稱為“o1-預(yù)覽”(為什么人工智能公司總是這么不擅長(zhǎng)命名?),它在解決問(wèn)題之前會(huì)先“思考”一下問(wèn)題。這使得它能夠解決那些需要計(jì)劃和迭代的復(fù)雜問(wèn)題,比如新穎的數(shù)學(xué)或科學(xué)難題。事實(shí)上,它在解決極其困難的物理問(wèn)題上,現(xiàn)在甚至可以超過(guò)人類(lèi)的博士專(zhuān)家。
需要明確的是,“o1-預(yù)覽”并不是在所有方面都表現(xiàn)得更好。例如,它并不比GPT-4o更強(qiáng)。但對(duì)于需要規(guī)劃的任務(wù),表現(xiàn)卻非常好。例如,我給它下達(dá)了這樣的指令:參考下面的論文,考慮老師和學(xué)生的觀點(diǎn),弄清楚如何使用多個(gè)代理和生成式AI構(gòu)建一個(gè)教學(xué)模擬器。編寫(xiě)代碼并詳細(xì)說(shuō)明你的方法。然后我把我們論文的全文貼了上去,唯一的提示是要構(gòu)建完整的代碼。你可以看到下面系統(tǒng)生成的結(jié)果。
評(píng)估這些復(fù)雜的輸出確實(shí)很困難,因此展示草莓模型的收益(以及局限性)最簡(jiǎn)單的方法是用一個(gè)游戲:填字游戲。我從一個(gè)非常難的填字游戲中提取了8條線索,并將其翻譯成文本(因?yàn)槲疫不能看到圖像)。不妨自己嘗試一下這個(gè)謎題,我敢打賭你會(huì)覺(jué)得它很有挑戰(zhàn)性。
填字游戲?qū)Υ笳Z(yǔ)言模型來(lái)說(shuō)顯得尤其棘手,因?yàn)樗鼈冃枰磸?fù)試錯(cuò):嘗試并排除許多相互關(guān)聯(lián)的答案。而大語(yǔ)言模型無(wú)法做到這一點(diǎn),因?yàn)樗鼈兠看沃荒茉谄浯鸢钢刑砑右粋(gè)Token。例如,當(dāng)我把這個(gè)謎題給Claude時(shí),它首先給出的答案是“STAR”(錯(cuò)誤的),然后用這個(gè)錯(cuò)誤的答案嘗試解答剩下的謎題,最后甚至連答案都猜不出來(lái)。沒(méi)有規(guī)劃過(guò)程,它只能不斷嘗試。
但如果我把這個(gè)謎題給草莓會(huì)怎樣呢?這個(gè)模型首先“思考”了整整108秒(大多數(shù)問(wèn)題能在更短時(shí)間內(nèi)解決)。你可以看到它的思路,下面是一個(gè)樣本(還有很多我沒(méi)包括),這些思路非常啟發(fā)人值得花時(shí)間讀一讀。
大語(yǔ)言模型會(huì)反復(fù)迭代,創(chuàng)造和排除想法,結(jié)果通常相當(dāng)出色。然而,“o1-預(yù)覽”似乎還是基于GPT-4o,有點(diǎn)過(guò)于字面化,難以破解這個(gè)較難的謎題。例如,“星系團(tuán)”并不是指真正的星系,而是三星Galaxy手機(jī)(這也讓我困惑)答案是“應(yīng)用程序”。在決定是否為COMA(一個(gè)真實(shí)的星系團(tuán))之前,它一直在嘗試實(shí)際的星系名稱。因此,剩下的結(jié)果雖然有創(chuàng)意,但不完全正確,也不符合規(guī)則。
為了嘗試更進(jìn)一步,我決定給它一個(gè)提示:“1向下是APPS。”人工智能又花了一分鐘。再次,在它的思維樣本中(見(jiàn)左邊),你可以看到它如何迭代想法。最終,它給出的答案完全正確,解決了所有難題的提示,盡管它確實(shí)生成了一個(gè)新線索這不是我給它的謎題。
所以,如果沒(méi)有“草莓”,“o1-預(yù)覽”所做的事情是不可能實(shí)現(xiàn)的,但它仍然不是完美的:錯(cuò)誤和幻覺(jué)仍然存在,且它仍受限于GPT-4o作為底層模型的“智能”。自從有了新模型,我沒(méi)停止用Claude來(lái)評(píng)論我的帖子,Claude在風(fēng)格上仍然表現(xiàn)更好,但我確實(shí)停止用它處理任何復(fù)雜的計(jì)劃或問(wèn)題解決任務(wù)。“o1-預(yù)覽”在這些領(lǐng)域代表了巨大的飛躍。
使用“o1-預(yù)覽”意味著面臨人工智能的范式變化。計(jì)劃成了一種代理形式,人工智能在沒(méi)有我們幫助的情況下自己得出解決方案?梢钥闯觯斯ぶ悄茏隽舜罅康乃伎,產(chǎn)生了完整的結(jié)果,作為人類(lèi)伙伴的角色感覺(jué)被削弱了。人工智能會(huì)自主完成任務(wù),然后給出答案。當(dāng)然,我可以通過(guò)分析它的推理找出錯(cuò)誤,但我不再感覺(jué)自己與人工智能的輸出有聯(lián)系,也不再覺(jué)得自己在解決方案的形成中扮演重要角色。這不一定是壞事,但確實(shí)是一種改變。
隨著這些系統(tǒng)不斷升級(jí),逐漸走向真正的自主代理,我們需要弄清楚如何保持在這個(gè)循環(huán)中既要捕捉錯(cuò)誤,又要掌握我們?cè)噲D解決問(wèn)題的核心。“o1-預(yù)覽”展示了可能前所未見(jiàn)的人工智能功能,即使它目前存在一些局限性。這給我們留下了一個(gè)關(guān)鍵問(wèn)題:隨著人工智能的發(fā)展,我們?nèi)绾闻c它更好地合作?這是“o1-預(yù)覽”目前還無(wú)法解決的問(wèn)題。
和很多人直接的褒貶觀點(diǎn)不同,作為對(duì)話式搜索引擎Perplexity CEO,阿拉溫德斯里尼瓦斯(Aravind Srinivas)試圖“猜測(cè)”OpenAI o1模型的原理。他不認(rèn)為“草莓”所給出的答案是經(jīng)由反復(fù)批判性反饋精心提煉的結(jié)果,而且認(rèn)為單純依賴大型語(yǔ)言模型來(lái)得出答案并不足夠可靠。他建議,將代碼執(zhí)行融入其中,并結(jié)合從知識(shí)圖譜中直接提取的事實(shí),這一做法在實(shí)際應(yīng)用中可能更為有效。
總體而言,OpenAI o1的“思考”時(shí)間更長(zhǎng)、更擅長(zhǎng)處理標(biāo)準(zhǔn)化程度更高的“理科”問(wèn)題了,這對(duì)科學(xué)領(lǐng)域的發(fā)展來(lái)說(shuō)是一件好事。但除了是非分明的邏輯推理問(wèn)題,世界上所存在的更多問(wèn)題,都是沒(méi)有標(biāo)準(zhǔn)答案的,對(duì)蕓蕓眾生而言,一千個(gè)人眼中有一千個(gè)哈姆雷特,如果大模型能為人類(lèi)解決這類(lèi)非標(biāo)問(wèn)題,或許才能接近真正的AGI。(編譯/金鹿 編輯/可君、周小燕)