展會(huì)信息港展會(huì)大全

OpenAI發(fā)布首款具有推理能力的模型o1,可“思考”后自我核實(shí)答案正確性
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-13 13:28:02   瀏覽:2864次  

導(dǎo)讀:OpenAI旗下首款具有推理能力的AI大語(yǔ)言模型加速襲來(lái)。 兩天前,尚有消息稱代號(hào)為草莓的推理功能模型預(yù)計(jì)在兩周內(nèi)發(fā)布,9月12日周四,這款模型已經(jīng)以O(shè)penAI o1(英文字母O+阿拉伯?dāng)?shù)字1)的正式名稱發(fā)布了。 不過(guò),作為o1系列模型的首批版本,OpenAI僅推出了o1...

OpenAI旗下首款具有推理能力的AI大語(yǔ)言模型加速襲來(lái)。

兩天前,尚有消息稱代號(hào)為“草莓”的推理功能模型預(yù)計(jì)在兩周內(nèi)發(fā)布,9月12日周四,這款模型已經(jīng)以“OpenAI o1”(英文字母O+阿拉伯?dāng)?shù)字1)的正式名稱發(fā)布了。

不過(guò),作為o1系列模型的首批版本,OpenAI僅推出了o1-preview預(yù)覽版和o1-mini迷你版,而且是分階段向付費(fèi)用戶、免費(fèi)用戶和開(kāi)發(fā)者推出,且開(kāi)發(fā)者的使用價(jià)格頗為昂貴。

OpenAI在社交媒體官宣發(fā)布o(jì)1模型o1模型使用成本至少是GPT-4o的3倍,初始發(fā)送信息數(shù)有限,采用全新方法訓(xùn)練

據(jù)介紹,o1新模型通過(guò)背后嶄新的訓(xùn)練方式,變得可以回答更復(fù)雜的編程、數(shù)學(xué)與科學(xué)難題,在給出答案前會(huì)先“思考”,而且速度比人類(lèi)更快。更孝更便宜的迷你版聚焦在編程用例。

ChatGPT Plus和Team付費(fèi)用戶即刻起便能訪問(wèn)這兩種模型,從用戶界面AI模型選擇器的下拉菜單中手動(dòng)選擇。ChatGPT Enterprise和Edu用戶下周能使用這兩種模式,未來(lái)某個(gè)未知時(shí)刻還將向所有免費(fèi)用戶提供o1-mini的訪問(wèn)權(quán)限。OpenAI希望以后能根據(jù)提示語(yǔ)自動(dòng)選擇正確的模型。

目前僅能在下拉菜單中手動(dòng)選擇模型,沒(méi)有取代GPT系列模型

不過(guò),開(kāi)發(fā)人員訪問(wèn)o1非常昂貴,在API(應(yīng)用程序編程接口)中,o1-preview每100萬(wàn)個(gè)輸入token收費(fèi)15美元,是GPT-4o成本的三倍,每100萬(wàn)個(gè)輸出token收費(fèi)60美元,是GPT-4o成本的四倍。100萬(wàn)個(gè)token即模型解析文字塊的規(guī)模大小,相當(dāng)于大約75萬(wàn)個(gè)單詞。

OpenAI的研究負(fù)責(zé)人Jerry Tworek對(duì)媒體稱,o1背后的訓(xùn)練方式與之前的模型有著根本不同。

首先,o1“使用了一種全新的優(yōu)化算法和專門(mén)為其量身定制的新訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練”,這個(gè)數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門(mén)為其量身定制的科學(xué)文獻(xiàn)。

其次,之前的GPT模型訓(xùn)練方法是模仿數(shù)據(jù)集的規(guī)律/范式(pattern),而o1采用“強(qiáng)化學(xué)習(xí)”的方式,通過(guò)獎(jiǎng)勵(lì)和懲罰來(lái)教導(dǎo)模型自行解決問(wèn)題,再通過(guò)“思路鏈”(chain of thoughts)來(lái)處理用戶查詢的問(wèn)題,給出思路鏈的總結(jié)摘要版,類(lèi)似于人類(lèi)一步步來(lái)處理問(wèn)題的方式。

右圖可以點(diǎn)開(kāi)思路鏈看o1模型如何“思考”對(duì)于一個(gè)復(fù)雜數(shù)學(xué)問(wèn)題的思路鏈展示圖

OpenAI認(rèn)為,這種全新的訓(xùn)練方法會(huì)讓o1模型更加準(zhǔn)確,會(huì)減少瞎編回答的“幻覺(jué)”問(wèn)題,但也無(wú)法完全杜絕出現(xiàn)“幻覺(jué)”。新模型與GPT-4o的主要區(qū)別在于能夠更好地解決編程和數(shù)學(xué)等復(fù)雜問(wèn)題,同時(shí)還能完善其推理過(guò)程、嘗試不同策略,并識(shí)別和修正自身答案中的錯(cuò)誤。

優(yōu)勢(shì):對(duì)復(fù)雜的推理任務(wù)是重大進(jìn)步,思考越久質(zhì)量越高,安全性提升,展現(xiàn)思考步驟

在優(yōu)勢(shì)方面,OpenAI稱o1模型對(duì)于復(fù)雜的推理任務(wù)來(lái)說(shuō)是個(gè)重大進(jìn)步,代表了人工智能能力的新水平,而且模型“思考”的時(shí)間越長(zhǎng),在推理任務(wù)上的表現(xiàn)就越好,因?yàn)閛1可以花更多時(shí)間來(lái)考慮一個(gè)復(fù)雜問(wèn)題的所有部分,從而有效地進(jìn)行事實(shí)核查。

具體來(lái)說(shuō),o1模型的推理能力大幅提升,在物理、化學(xué)和生物等學(xué)科的Challenging基準(zhǔn)測(cè)試中表現(xiàn)與博士生(即專家型人才)相當(dāng)。而且其數(shù)學(xué)和編程能力爆表,在一項(xiàng)國(guó)際奧數(shù)競(jìng)賽(IMO)的資格考試中正確率高達(dá)83%,GPT-4o的正確率只有13%,在Codeforces在線編程競(jìng)賽中的成績(jī)也高達(dá)89百分位,即前頭只有11%的人類(lèi)選手比o1模型出色。

同時(shí),o1模型的安全性得以提升,比之前模型更能遵守安全準(zhǔn)則,并且更能抵抗產(chǎn)生有害內(nèi)容。在用戶試圖繞過(guò)安全規(guī)則的“越獄測(cè)試”中,在最嚴(yán)格的標(biāo)準(zhǔn)下GPT-4o在百分之中僅得22分,o1預(yù)覽版的分?jǐn)?shù)卻高達(dá)84。公司稱其“沒(méi)有促進(jìn)超過(guò)現(xiàn)有資源已經(jīng)可能實(shí)現(xiàn)的評(píng)估風(fēng)險(xiǎn)。”

公司稱,適用人群包括“正在解決科學(xué)、編程、數(shù)學(xué)和類(lèi)似領(lǐng)域復(fù)雜問(wèn)題的人士”,這些增強(qiáng)的推理能力可能特別有用。o1模型擅長(zhǎng)準(zhǔn)確生成和調(diào)試復(fù)雜代碼,迷你版是款速度更快、比預(yù)覽版便宜80%的推理模型,在編程方面尤其高效,適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用程序:

“例如,醫(yī)療研究人員可以使用o1來(lái)注釋細(xì)胞測(cè)序數(shù)據(jù),物理學(xué)家可以使用o1來(lái)生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,各領(lǐng)域的開(kāi)發(fā)人員可以使用o1來(lái)構(gòu)建和執(zhí)行多步驟工作流程。”

測(cè)試過(guò)該模型的湯森路透副總裁Pablo Arredondo還發(fā)現(xiàn),在分析法律摘要和解決LSAT(法學(xué)院入學(xué)考試)的邏輯題等方面,o1模型比OpenAI之前的模型更好:“我們發(fā)現(xiàn)它可以處理更實(shí)質(zhì)性、更多方面的分析,我們的自動(dòng)化測(cè)試還表明,它在處理一系列簡(jiǎn)單任務(wù)時(shí)都有所進(jìn)步。”

公司高管稱,OpenAI 并不認(rèn)為人工智能模型思維等同于人類(lèi)思維,這種更具人性化的表達(dá)旨在展示模型如何花費(fèi)了更多時(shí)間處理問(wèn)題并全面、深入地解決問(wèn)題。

可看到思路鏈中充斥著一些人類(lèi)口語(yǔ)化的表達(dá)缺點(diǎn):無(wú)法瀏覽實(shí)時(shí)網(wǎng)頁(yè)、無(wú)法上傳文件和圖片、缺乏廣泛世界知識(shí)、或更易產(chǎn)生幻覺(jué)

但作為o1模型的最初始版本,今日發(fā)布的o1-預(yù)覽版也有明顯缺點(diǎn)。例如,只是一款“純文字版”,暫時(shí)無(wú)法瀏覽網(wǎng)頁(yè)信息以及上傳文件和圖片,也就是說(shuō)不具備ChatGPT的許多使用功能,在許多常見(jiàn)用例中不如GPT-4o那么強(qiáng)大,而且還有用量限制,o1預(yù)覽版每周上限為30條消息,迷你版每周上限為50條。

其他被提及的局限性包括:o1模型在很多領(lǐng)域的能力不如GPT-4o,在關(guān)于世界的事實(shí)知識(shí)方面表現(xiàn)不佳;有的用例下推理能力較慢,可能需要更長(zhǎng)的時(shí)間來(lái)回答問(wèn)題;目前o1只是一個(gè)純文本模型,缺乏針對(duì)特定文檔進(jìn)行推理,或者從網(wǎng)絡(luò)收集實(shí)時(shí)信息的能力。

此外,讓AI模型玩井字棋(Tic-Tac-Toe)一直被認(rèn)為是個(gè)業(yè)界難題,擁有推理能力的o1新模型也還是會(huì)在這個(gè)游戲中出錯(cuò),即無(wú)法完全攻克技術(shù)難關(guān)。

OpenAI還在一篇技術(shù)論文中承認(rèn),其收到了一些“軼事反饋”,稱o1預(yù)覽版和迷你版比GPT-4o及其迷你版更容易產(chǎn)生“幻覺(jué)”,也就是AI仍在很自信地編造答案,而且o1很少會(huì)承認(rèn)它不知道問(wèn)題的答案。

知名科技媒體Techcrunch指出,OpenAI在o1模型相關(guān)的博文中點(diǎn)明,其決定不向用戶展示這一新模型的原始“思維鏈”,而是選擇在答案中給出思維鏈的總結(jié)摘要,目的是為了維持“競(jìng)爭(zhēng)優(yōu)勢(shì)”,為了彌補(bǔ)可能的缺點(diǎn),“我們努力教導(dǎo)模型在答案中重現(xiàn)思路鏈中的任何有用想法。”

OpenAI也承認(rèn)在訓(xùn)練AI模型推理能力方面的競(jìng)爭(zhēng)壓力很大:

“OpenAI可能率先推出了o1。但假設(shè)競(jìng)爭(zhēng)對(duì)手很快也會(huì)效仿并推出類(lèi)似的模型,那么公司真正的考驗(yàn)將是讓o1得到廣泛應(yīng)用。

OpenAI未來(lái)將不斷推出o1模型的更新版本,目標(biāo)是對(duì)推理時(shí)間長(zhǎng)達(dá)數(shù)小時(shí)、數(shù)天甚至數(shù)周的o1模型進(jìn)行實(shí)驗(yàn),以進(jìn)一步提高其推理能力。

除了模型更新之外,我們還希望給o1模型添加瀏覽網(wǎng)頁(yè)、文件和圖片上傳等功能,讓它對(duì)每個(gè)人都更有用。在o1系列之外,我們還計(jì)劃繼續(xù)開(kāi)發(fā)和發(fā)布GPT系列中的模型。”

在o1正式發(fā)布前,曾有媒體稱其最早可能在本周向有限數(shù)量的用戶開(kāi)放。而且OpenAI并不是唯一致力于開(kāi)發(fā)具有推理能力AI模型的公司,Anthropic和谷歌也都宣稱其先進(jìn)的人工智能模型具有“推理”能力:

“o1模型的發(fā)布,正值OpenAI尋求(以1500億美元的超高估值)籌集數(shù)十億美元資金,并且在開(kāi)發(fā)越來(lái)越復(fù)雜的人工智能系統(tǒng)方面遭遇更激烈的競(jìng)爭(zhēng)之際。”

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港