精品系列无码一区二区,午夜国产福利91

OpenAI發(fā)布首款具有推理能力的模型o1，可“思考”后自我核實(shí)答案正確性

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:02 瀏覽：2864次

導(dǎo)讀：OpenAI旗下首款具有推理能力的AI大語(yǔ)言模型加速襲來(lái)。兩天前，尚有消息稱代號(hào)為草莓的推理功能模型預(yù)計(jì)在兩周內(nèi)發(fā)布，9月12日周四，這款模型已經(jīng)以O(shè)penAI o1（英文字母O+阿拉伯?dāng)?shù)字1）的正式名稱發(fā)布了。不過(guò)，作為o1系列模型的首批版本，OpenAI僅推出了o1...

OpenAI旗下首款具有推理能力的AI大語(yǔ)言模型加速襲來(lái)。

兩天前，尚有消息稱代號(hào)為“草莓”的推理功能模型預(yù)計(jì)在兩周內(nèi)發(fā)布，9月12日周四，這款模型已經(jīng)以“OpenAI o1”（英文字母O+阿拉伯?dāng)?shù)字1）的正式名稱發(fā)布了。

不過(guò)，作為o1系列模型的首批版本，OpenAI僅推出了o1-preview預(yù)覽版和o1-mini迷你版，而且是分階段向付費(fèi)用戶、免費(fèi)用戶和開(kāi)發(fā)者推出，且開(kāi)發(fā)者的使用價(jià)格頗為昂貴。

OpenAI在社交媒體官宣發(fā)布o(jì)1模型o1模型使用成本至少是GPT-4o的3倍，初始發(fā)送信息數(shù)有限，采用全新方法訓(xùn)練

據(jù)介紹，o1新模型通過(guò)背后嶄新的訓(xùn)練方式，變得可以回答更復(fù)雜的編程、數(shù)學(xué)與科學(xué)難題，在給出答案前會(huì)先“思考”，而且速度比人類(lèi)更快。更孝更便宜的迷你版聚焦在編程用例。

ChatGPT Plus和Team付費(fèi)用戶即刻起便能訪問(wèn)這兩種模型，從用戶界面AI模型選擇器的下拉菜單中手動(dòng)選擇。ChatGPT Enterprise和Edu用戶下周能使用這兩種模式，未來(lái)某個(gè)未知時(shí)刻還將向所有免費(fèi)用戶提供o1-mini的訪問(wèn)權(quán)限。OpenAI希望以后能根據(jù)提示語(yǔ)自動(dòng)選擇正確的模型。

目前僅能在下拉菜單中手動(dòng)選擇模型，沒(méi)有取代GPT系列模型

不過(guò)，開(kāi)發(fā)人員訪問(wèn)o1非常昂貴，在API（應(yīng)用程序編程接口）中，o1-preview每100萬(wàn)個(gè)輸入token收費(fèi)15美元，是GPT-4o成本的三倍，每100萬(wàn)個(gè)輸出token收費(fèi)60美元，是GPT-4o成本的四倍。100萬(wàn)個(gè)token即模型解析文字塊的規(guī)模大小，相當(dāng)于大約75萬(wàn)個(gè)單詞。

OpenAI的研究負(fù)責(zé)人Jerry Tworek對(duì)媒體稱，o1背后的訓(xùn)練方式與之前的模型有著根本不同。

首先，o1“使用了一種全新的優(yōu)化算法和專門(mén)為其量身定制的新訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練”，這個(gè)數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門(mén)為其量身定制的科學(xué)文獻(xiàn)。

其次，之前的GPT模型訓(xùn)練方法是模仿數(shù)據(jù)集的規(guī)律/范式（pattern），而o1采用“強(qiáng)化學(xué)習(xí)”的方式，通過(guò)獎(jiǎng)勵(lì)和懲罰來(lái)教導(dǎo)模型自行解決問(wèn)題，再通過(guò)“思路鏈”（chain of thoughts）來(lái)處理用戶查詢的問(wèn)題，給出思路鏈的總結(jié)摘要版，類(lèi)似于人類(lèi)一步步來(lái)處理問(wèn)題的方式。

右圖可以點(diǎn)開(kāi)思路鏈看o1模型如何“思考”對(duì)于一個(gè)復(fù)雜數(shù)學(xué)問(wèn)題的思路鏈展示圖

OpenAI認(rèn)為，這種全新的訓(xùn)練方法會(huì)讓o1模型更加準(zhǔn)確，會(huì)減少瞎編回答的“幻覺(jué)”問(wèn)題，但也無(wú)法完全杜絕出現(xiàn)“幻覺(jué)”。新模型與GPT-4o的主要區(qū)別在于能夠更好地解決編程和數(shù)學(xué)等復(fù)雜問(wèn)題，同時(shí)還能完善其推理過(guò)程、嘗試不同策略，并識(shí)別和修正自身答案中的錯(cuò)誤。

優(yōu)勢(shì)：對(duì)復(fù)雜的推理任務(wù)是重大進(jìn)步，思考越久質(zhì)量越高，安全性提升，展現(xiàn)思考步驟

在優(yōu)勢(shì)方面，OpenAI稱o1模型對(duì)于復(fù)雜的推理任務(wù)來(lái)說(shuō)是個(gè)重大進(jìn)步，代表了人工智能能力的新水平，而且模型“思考”的時(shí)間越長(zhǎng)，在推理任務(wù)上的表現(xiàn)就越好，因?yàn)閛1可以花更多時(shí)間來(lái)考慮一個(gè)復(fù)雜問(wèn)題的所有部分，從而有效地進(jìn)行事實(shí)核查。

具體來(lái)說(shuō)，o1模型的推理能力大幅提升，在物理、化學(xué)和生物等學(xué)科的Challenging基準(zhǔn)測(cè)試中表現(xiàn)與博士生（即專家型人才）相當(dāng)。而且其數(shù)學(xué)和編程能力爆表，在一項(xiàng)國(guó)際奧數(shù)競(jìng)賽（IMO）的資格考試中正確率高達(dá)83%，GPT-4o的正確率只有13%，在Codeforces在線編程競(jìng)賽中的成績(jī)也高達(dá)89百分位，即前頭只有11%的人類(lèi)選手比o1模型出色。

同時(shí)，o1模型的安全性得以提升，比之前模型更能遵守安全準(zhǔn)則，并且更能抵抗產(chǎn)生有害內(nèi)容。在用戶試圖繞過(guò)安全規(guī)則的“越獄測(cè)試”中，在最嚴(yán)格的標(biāo)準(zhǔn)下GPT-4o在百分之中僅得22分，o1預(yù)覽版的分?jǐn)?shù)卻高達(dá)84。公司稱其“沒(méi)有促進(jìn)超過(guò)現(xiàn)有資源已經(jīng)可能實(shí)現(xiàn)的評(píng)估風(fēng)險(xiǎn)。”

公司稱，適用人群包括“正在解決科學(xué)、編程、數(shù)學(xué)和類(lèi)似領(lǐng)域復(fù)雜問(wèn)題的人士”，這些增強(qiáng)的推理能力可能特別有用。o1模型擅長(zhǎng)準(zhǔn)確生成和調(diào)試復(fù)雜代碼，迷你版是款速度更快、比預(yù)覽版便宜80%的推理模型，在編程方面尤其高效，適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用程序：

“例如，醫(yī)療研究人員可以使用o1來(lái)注釋細(xì)胞測(cè)序數(shù)據(jù)，物理學(xué)家可以使用o1來(lái)生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式，各領(lǐng)域的開(kāi)發(fā)人員可以使用o1來(lái)構(gòu)建和執(zhí)行多步驟工作流程。”

測(cè)試過(guò)該模型的湯森路透副總裁Pablo Arredondo還發(fā)現(xiàn)，在分析法律摘要和解決LSAT（法學(xué)院入學(xué)考試）的邏輯題等方面，o1模型比OpenAI之前的模型更好：“我們發(fā)現(xiàn)它可以處理更實(shí)質(zhì)性、更多方面的分析，我們的自動(dòng)化測(cè)試還表明，它在處理一系列簡(jiǎn)單任務(wù)時(shí)都有所進(jìn)步。”

公司高管稱，OpenAI 并不認(rèn)為人工智能模型思維等同于人類(lèi)思維，這種更具人性化的表達(dá)旨在展示模型如何花費(fèi)了更多時(shí)間處理問(wèn)題并全面、深入地解決問(wèn)題。

可看到思路鏈中充斥著一些人類(lèi)口語(yǔ)化的表達(dá)缺點(diǎn)：無(wú)法瀏覽實(shí)時(shí)網(wǎng)頁(yè)、無(wú)法上傳文件和圖片、缺乏廣泛世界知識(shí)、或更易產(chǎn)生幻覺(jué)

但作為o1模型的最初始版本，今日發(fā)布的o1-預(yù)覽版也有明顯缺點(diǎn)。例如，只是一款“純文字版”，暫時(shí)無(wú)法瀏覽網(wǎng)頁(yè)信息以及上傳文件和圖片，也就是說(shuō)不具備ChatGPT的許多使用功能，在許多常見(jiàn)用例中不如GPT-4o那么強(qiáng)大，而且還有用量限制，o1預(yù)覽版每周上限為30條消息，迷你版每周上限為50條。

其他被提及的局限性包括：o1模型在很多領(lǐng)域的能力不如GPT-4o，在關(guān)于世界的事實(shí)知識(shí)方面表現(xiàn)不佳；有的用例下推理能力較慢，可能需要更長(zhǎng)的時(shí)間來(lái)回答問(wèn)題；目前o1只是一個(gè)純文本模型，缺乏針對(duì)特定文檔進(jìn)行推理，或者從網(wǎng)絡(luò)收集實(shí)時(shí)信息的能力。

此外，讓AI模型玩井字棋（Tic-Tac-Toe）一直被認(rèn)為是個(gè)業(yè)界難題，擁有推理能力的o1新模型也還是會(huì)在這個(gè)游戲中出錯(cuò)，即無(wú)法完全攻克技術(shù)難關(guān)。

OpenAI還在一篇技術(shù)論文中承認(rèn)，其收到了一些“軼事反饋”，稱o1預(yù)覽版和迷你版比GPT-4o及其迷你版更容易產(chǎn)生“幻覺(jué)”，也就是AI仍在很自信地編造答案，而且o1很少會(huì)承認(rèn)它不知道問(wèn)題的答案。

知名科技媒體Techcrunch指出，OpenAI在o1模型相關(guān)的博文中點(diǎn)明，其決定不向用戶展示這一新模型的原始“思維鏈”，而是選擇在答案中給出思維鏈的總結(jié)摘要，目的是為了維持“競(jìng)爭(zhēng)優(yōu)勢(shì)”，為了彌補(bǔ)可能的缺點(diǎn)，“我們努力教導(dǎo)模型在答案中重現(xiàn)思路鏈中的任何有用想法。”

OpenAI也承認(rèn)在訓(xùn)練AI模型推理能力方面的競(jìng)爭(zhēng)壓力很大：

“OpenAI可能率先推出了o1。但假設(shè)競(jìng)爭(zhēng)對(duì)手很快也會(huì)效仿并推出類(lèi)似的模型，那么公司真正的考驗(yàn)將是讓o1得到廣泛應(yīng)用。

OpenAI未來(lái)將不斷推出o1模型的更新版本，目標(biāo)是對(duì)推理時(shí)間長(zhǎng)達(dá)數(shù)小時(shí)、數(shù)天甚至數(shù)周的o1模型進(jìn)行實(shí)驗(yàn)，以進(jìn)一步提高其推理能力。

除了模型更新之外，我們還希望給o1模型添加瀏覽網(wǎng)頁(yè)、文件和圖片上傳等功能，讓它對(duì)每個(gè)人都更有用。在o1系列之外，我們還計(jì)劃繼續(xù)開(kāi)發(fā)和發(fā)布GPT系列中的模型。”

在o1正式發(fā)布前，曾有媒體稱其最早可能在本周向有限數(shù)量的用戶開(kāi)放。而且OpenAI并不是唯一致力于開(kāi)發(fā)具有推理能力AI模型的公司，Anthropic和谷歌也都宣稱其先進(jìn)的人工智能模型具有“推理”能力：

“o1模型的發(fā)布，正值OpenAI尋求（以1500億美元的超高估值）籌集數(shù)十億美元資金，并且在開(kāi)發(fā)越來(lái)越復(fù)雜的人工智能系統(tǒng)方面遭遇更激烈的競(jìng)爭(zhēng)之際。”

相關(guān)熱詞： OpenAI 發(fā)布首款具有推理能力模型思考自我

OpenAI發(fā)布首款具有推理能力的模型o1，可“思考”后自我核實(shí)答案正確性
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:02 瀏覽：2864次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門(mén)排行

推薦內(nèi)容

在線客服

熱門(mén)欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI發(fā)布首款具有推理能力的模型o1，可“思考”后自我核實(shí)答案正確性 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:28:02 瀏覽：2864次