當(dāng)前位置：人工智能實(shí)驗(yàn)室> 產(chǎn)品動(dòng)態(tài) > 傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:51:51 瀏覽：3531次

導(dǎo)讀：當(dāng)?shù)貢r(shí)間 9 月 12 日，OpenAI 發(fā)布了全新模型 o1，這是該公司計(jì)劃推出的一系列推理模型中的第一個(gè)，也是之前業(yè)內(nèi)傳聞已久的Strawberry（草莓）項(xiàng)目。據(jù)介紹，o1 模型在很多任務(wù)中能夠比人類更快地處理復(fù)雜查詢，并展現(xiàn)出前所未有的超強(qiáng)推理能力。與此同時(shí)，...

當(dāng)?shù)貢r(shí)間 9 月 12 日，OpenAI 發(fā)布了全新模型 o1，這是該公司計(jì)劃推出的一系列“推理”模型中的第一個(gè)，也是之前業(yè)內(nèi)傳聞已久的“Strawberry（草莓）”項(xiàng)目。

據(jù)介紹，o1 模型在很多任務(wù)中能夠比人類更快地處理復(fù)雜查詢，并展現(xiàn)出前所未有的超強(qiáng)推理能力。與此同時(shí)，OpenAI 還推出了一個(gè)較小且更經(jīng)濟(jì)實(shí)惠的版本 o1-mini。

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1

（來源：OpenAI）

對 OpenAI 而言，o1 的發(fā)布代表著公司向?qū)崿F(xiàn)類人人工智能（human-like AI）這一宏偉目標(biāo)邁出的重要一步。

從實(shí)際應(yīng)用角度來看，o1 在編寫代碼、推理和解決多步驟復(fù)雜問題方面的表現(xiàn)明顯優(yōu)于先前的模型。

然而，使用 o1 的成本較高，速度也相對較慢。OpenAI 將這次發(fā)布稱為“preview（預(yù)覽版）”，以強(qiáng)調(diào)該模型尚處于初期階段。

從今日以后，ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini，而 Enterprise 和 Edu 用戶將于下周初獲得訪問權(quán)限。

o1-preview 每周最多使用 30 條消息，而 o1-mini 則為 50 條。

據(jù) OpenAI 信息，其計(jì)劃向所有 ChatGPT 免費(fèi)用戶開放 o1-mini 的訪問權(quán)限，但具體上線日期尚未確定。

對于開發(fā)者而言，符合 API tier 5 的開發(fā)者可以通過 API 使用這些模型，每分鐘請求數(shù)限制為 20 條。

值得注意的是，開發(fā)者通過應(yīng)用程序編程接口（API，Application Programming Interface）使用 o1 的成本相當(dāng)高昂：o1-preview 的輸入 token 價(jià)格為每百萬個(gè) 15 美元，輸出 token 價(jià)格為每百萬個(gè) 60 美元。

相比之下，GPT-4o 的輸入 token 價(jià)格為每百萬個(gè) 5 美元，輸出 token 價(jià)格為每百萬個(gè) 15 美元。

o1 模型的訓(xùn)練方法與其前代產(chǎn)品有著根本性的不同。

OpenAI 的研究主管杰里特沃雷克（Jerry Tworek）對媒體表示：“o1 使用了全新的優(yōu)化算法進(jìn)行訓(xùn)練，并采用了專門為其設(shè)計(jì)的新型訓(xùn)練數(shù)據(jù)集。”

與之前的 GPT 模型通過模仿訓(xùn)練數(shù)據(jù)中的模式不同，o1 采用了強(qiáng)化學(xué)習(xí)技術(shù)，通過獎(jiǎng)勵(lì)和懲罰來教系統(tǒng)解決問題。

此外，o1 還使用思維鏈來處理查詢，這與人類通過逐步思考來解決問題的方式類似。

得益于這種新的訓(xùn)練方法，OpenAI 稱，o1 模型的準(zhǔn)確性得到了顯著提升。

特沃雷克對媒體表示：“我們注意到該模型的幻覺現(xiàn)象減少了。”然而，他也坦言，這個(gè)問題仍然存在，“我們不能說已經(jīng)徹底解決了幻覺問題”。

根據(jù) OpenAI 的說法，o1 最顯著的特點(diǎn)是其處理復(fù)雜問題（如編程和數(shù)學(xué)）的能力遠(yuǎn)超前代產(chǎn)品，同時(shí)還能解釋其推理過程。

OpenAI 首席研究官鮑勃麥格魯（Bob McGrew）對媒體表示：“這個(gè)模型在解決大學(xué)預(yù)修課程數(shù)學(xué)考試方面的表現(xiàn)肯定比我強(qiáng)，而我在大學(xué)時(shí)的輔修專業(yè)就是數(shù)學(xué)。”

他還提到，OpenAI 對 o1 進(jìn)行了國際數(shù)學(xué)奧林匹克競賽資格考試的測試。結(jié)果顯示，GPT-4o 只能正確解決 13% 的問題，而 o1 的得分率高達(dá) 83%。

在 Codeforces 在線編程競賽中，o1 模型的表現(xiàn)超過了 89% 的參賽者。同時(shí) OpenAI 聲稱，該模型已經(jīng)在許多物理、化學(xué)和生物學(xué)等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上達(dá)到與博士生相當(dāng)?shù)乃健?/p>

盡管如此，o1 在許多領(lǐng)域的表現(xiàn)仍達(dá)不到 GPT-4o 的水平。例如，在處理有關(guān)世界的事實(shí)性知識(shí)方面。

此外，目前 o1 還缺乏瀏覽網(wǎng)頁或處理文件和圖像的能力。盡管存在這些局限，OpenAI 仍然認(rèn)為 o1 代表了一種全新的能力類別（模型）。

o1 模型的界面設(shè)計(jì)旨在展示其推理步驟，模仿人類思考的過程。

在解答問題時(shí)，o1 會(huì)使用“我很好奇”“我正在思考”和“讓我想想”等短語，營造出一種逐步思考的錯(cuò)覺。然而，OpenAI 強(qiáng)調(diào)，這并不意味著模型真的在思考，更不是人類。

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1

圖｜o1 模型會(huì)使用很多短語，表示自己正在“思考”，但實(shí)際上并沒有（來源：OpenAI）

特沃雷克解釋說：“這種界面設(shè)計(jì)是為了展示模型如何花費(fèi)更多時(shí)間來處理和深入解決問題。”

麥格魯補(bǔ)充道：“你會(huì)發(fā)現(xiàn)它在某些方面感覺很像外星人，但在其他方面又令人驚訝地像人類。”

o1 模型的發(fā)布標(biāo)志著 OpenAI 在實(shí)現(xiàn)自主系統(tǒng)或智能代理方面邁出了重要一步。這些系統(tǒng)能夠代表用戶做出決策并采取行動(dòng)。

對 AI 研究人員而言，實(shí)現(xiàn)推理能力是朝著人類級(jí)智能邁進(jìn)的重要一步。

理論上，如果一個(gè)模型能夠超越簡單的模式識(shí)別，在醫(yī)學(xué)、工程等領(lǐng)域有望實(shí)現(xiàn)突破性進(jìn)展。

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1

（來源：OpenAI）

在各項(xiàng)基準(zhǔn)測試中，o1 相較于 GPT-4o 都表現(xiàn)出了顯著的進(jìn)步。

在 57 個(gè)大規(guī)模多任務(wù)語言理解（MMLU，Massive Multitask Language Understanding）子類別中，o1 在 54 個(gè)類別中超越了 GPT-4o。在一些需要大量推理的基準(zhǔn)測試中，o1 的表現(xiàn)甚至可以與人類專家相媲美。

在數(shù)學(xué)能力方面，o1 的表現(xiàn)尤為出色。在美國數(shù)學(xué)邀請賽中，o1 平均解決了 74% 的問題，而 GPT-4o 僅能解決 12%。

通過使用共識(shí)和重新排序等技巧，o1 的得分率甚至可以達(dá)到 93%，這一成績足以使其躋身全美前 500 名學(xué)生之列。

在 GPQA 鉆石級(jí)測試（一項(xiàng)測試化學(xué)、物理和生物學(xué)專業(yè)知識(shí)的困難智力基準(zhǔn)）中，o1 超越了人類專家的表現(xiàn)，成為首個(gè)在該基準(zhǔn)測試中實(shí)現(xiàn)這一突破的模型。

然而，OpenAI 強(qiáng)調(diào)，“這并不意味著 o1 在所有方面都比博士更有能力”，只是在解決某些特定問題時(shí)表現(xiàn)更為出色。

在編程方面，o1 也展現(xiàn)出了驚人的能力。在 2024 年國際信息學(xué)奧林匹克中，基于 o1 初始化并進(jìn)一步訓(xùn)練的模型獲得了 213 分，排名位于第 49 百分位。

在模擬的 Codeforces 競賽中，這個(gè)模型達(dá)到了 1807 的 Elo 評(píng)分，超過了 93% 的人類選手。

盡管 o1 在推理能力方面取得了巨大進(jìn)步，但 OpenAI 承認(rèn)它并不適用于所有場景。

在一項(xiàng)人類偏好評(píng)估中，o1 在數(shù)據(jù)分析、編程和數(shù)學(xué)等需要大量推理的領(lǐng)域明顯優(yōu)于 GPT-4o，但在某些自然語言處理任務(wù)中表現(xiàn)不佳。

就像其他所有大模型一樣，o1 模型也會(huì)因?yàn)楦鞣N原因給出錯(cuò)誤答案。在少數(shù)情況下，它會(huì)在明知答案有誤的情況下，仍然將其返回給用戶。

安全性是 OpenAI 一直關(guān)注的重點(diǎn)。通過將安全策略整合到推理模型的思維鏈中，OpenAI 發(fā)現(xiàn)這是一種有效的方法，可以穩(wěn)健地傳授人類價(jià)值觀和原則。

o1 在關(guān)鍵的越獄評(píng)估和最嚴(yán)格的內(nèi)部安全基準(zhǔn)測試中，都取得了顯著改進(jìn)。

OpenAI 認(rèn)為，o1 及其后續(xù)版本將為 AI 在科學(xué)、編碼、數(shù)學(xué)等相關(guān)領(lǐng)域的應(yīng)用開辟新的可能性。

然而，他們也意識(shí)到這項(xiàng)技術(shù)可能帶來的潛在風(fēng)險(xiǎn)，因此決定不向用戶直接展示原始的思維鏈，而是提供一個(gè)模型生成的思維鏈摘要。

總的來說，OpenAI o1 的發(fā)布代表了 AI 推理能力的重大進(jìn)步。隨著 OpenAI 繼續(xù)改進(jìn)這一模型，期待看到更多令人興奮的應(yīng)用和突破。

然而，實(shí)現(xiàn)技術(shù)發(fā)展、安全及倫理問題之間的平衡，仍然是 AI 領(lǐng)域所面臨的長期挑戰(zhàn)。

參考資料：

https://openai.com/index/learning-to-reason-with-llms/

https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt

https://gizmodo.com/openai-releases-its-highly-anticipated-gpt-o1-model-2000498162

運(yùn)營/排版：何晨龍

相關(guān)熱詞： 傳說中的草莓模型問世 OpenAI 發(fā)布具有超強(qiáng)

上一篇：OpenAI“草莓”值萬億嗎？

下一篇：OpenAI深夜發(fā)布o(jì)1新模型，數(shù)學(xué)、編程、科學(xué)能力翻8倍！

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:51:51 瀏覽：3531次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:51:51 瀏覽：3531次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

傳說中的“草莓”模型問世，OpenAI發(fā)布具有超強(qiáng)推理能力的模型o1
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:51:51 瀏覽：3531次