當(dāng)?shù)貢r間 9 月 12 日,OpenAI 發(fā)布了全新模型 o1,這是該公司計劃推出的一系列“推理”模型中的第一個,也是之前業(yè)內(nèi)傳聞已久的“Strawberry(草莓)”項目。
據(jù)介紹,o1 模型在很多任務(wù)中能夠比人類更快地處理復(fù)雜查詢,并展現(xiàn)出前所未有的超強(qiáng)推理能力。與此同時,OpenAI 還推出了一個較小且更經(jīng)濟(jì)實惠的版本 o1-mini。
(來源:OpenAI)
對 OpenAI 而言,o1 的發(fā)布代表著公司向?qū)崿F(xiàn)類人人工智能(human-like AI)這一宏偉目標(biāo)邁出的重要一步。
從實際應(yīng)用角度來看,o1 在編寫代碼、推理和解決多步驟復(fù)雜問題方面的表現(xiàn)明顯優(yōu)于先前的模型。
然而,使用 o1 的成本較高,速度也相對較慢。OpenAI 將這次發(fā)布稱為“preview(預(yù)覽版)”,以強(qiáng)調(diào)該模型尚處于初期階段。
從今日以后,ChatGPT Plus 和 Team 用戶可以訪問 o1-preview 和 o1-mini,而 Enterprise 和 Edu 用戶將于下周初獲得訪問權(quán)限。
o1-preview 每周最多使用 30 條消息,而 o1-mini 則為 50 條。
據(jù) OpenAI 信息,其計劃向所有 ChatGPT 免費用戶開放 o1-mini 的訪問權(quán)限,但具體上線日期尚未確定。
對于開發(fā)者而言,符合 API tier 5 的開發(fā)者可以通過 API 使用這些模型,每分鐘請求數(shù)限制為 20 條。
值得注意的是,開發(fā)者通過應(yīng)用程序編程接口(API,Application Programming Interface)使用 o1 的成本相當(dāng)高昂:o1-preview 的輸入 token 價格為每百萬個 15 美元,輸出 token 價格為每百萬個 60 美元。
相比之下,GPT-4o 的輸入 token 價格為每百萬個 5 美元,輸出 token 價格為每百萬個 15 美元。
o1 模型的訓(xùn)練方法與其前代產(chǎn)品有著根本性的不同。
OpenAI 的研究主管杰里特沃雷克(Jerry Tworek)對媒體表示:“o1 使用了全新的優(yōu)化算法進(jìn)行訓(xùn)練,并采用了專門為其設(shè)計的新型訓(xùn)練數(shù)據(jù)集。”
與之前的 GPT 模型通過模仿訓(xùn)練數(shù)據(jù)中的模式不同,o1 采用了強(qiáng)化學(xué)習(xí)技術(shù),通過獎勵和懲罰來教系統(tǒng)解決問題。
此外,o1 還使用思維鏈來處理查詢,這與人類通過逐步思考來解決問題的方式類似。
得益于這種新的訓(xùn)練方法,OpenAI 稱,o1 模型的準(zhǔn)確性得到了顯著提升。
特沃雷克對媒體表示:“我們注意到該模型的幻覺現(xiàn)象減少了。”然而,他也坦言,這個問題仍然存在,“我們不能說已經(jīng)徹底解決了幻覺問題”。
根據(jù) OpenAI 的說法,o1 最顯著的特點是其處理復(fù)雜問題(如編程和數(shù)學(xué))的能力遠(yuǎn)超前代產(chǎn)品,同時還能解釋其推理過程。
OpenAI 首席研究官鮑勃麥格魯(Bob McGrew)對媒體表示:“這個模型在解決大學(xué)預(yù)修課程數(shù)學(xué)考試方面的表現(xiàn)肯定比我強(qiáng),而我在大學(xué)時的輔修專業(yè)就是數(shù)學(xué)。”
他還提到,OpenAI 對 o1 進(jìn)行了國際數(shù)學(xué)奧林匹克競賽資格考試的測試。結(jié)果顯示,GPT-4o 只能正確解決 13% 的問題,而 o1 的得分率高達(dá) 83%。
在 Codeforces 在線編程競賽中,o1 模型的表現(xiàn)超過了 89% 的參賽者。同時 OpenAI 聲稱,該模型已經(jīng)在許多物理、化學(xué)和生物學(xué)等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上達(dá)到與博士生相當(dāng)?shù)乃健?/p>
盡管如此,o1 在許多領(lǐng)域的表現(xiàn)仍達(dá)不到 GPT-4o 的水平。例如,在處理有關(guān)世界的事實性知識方面。
此外,目前 o1 還缺乏瀏覽網(wǎng)頁或處理文件和圖像的能力。盡管存在這些局限,OpenAI 仍然認(rèn)為 o1 代表了一種全新的能力類別(模型)。
o1 模型的界面設(shè)計旨在展示其推理步驟,模仿人類思考的過程。
在解答問題時,o1 會使用“我很好奇”“我正在思考”和“讓我想想”等短語,營造出一種逐步思考的錯覺。然而,OpenAI 強(qiáng)調(diào),這并不意味著模型真的在思考,更不是人類。
圖|o1 模型會使用很多短語,表示自己正在“思考”,但實際上并沒有(來源:OpenAI)
特沃雷克解釋說:“這種界面設(shè)計是為了展示模型如何花費更多時間來處理和深入解決問題。”
麥格魯補(bǔ)充道:“你會發(fā)現(xiàn)它在某些方面感覺很像外星人,但在其他方面又令人驚訝地像人類。”
o1 模型的發(fā)布標(biāo)志著 OpenAI 在實現(xiàn)自主系統(tǒng)或智能代理方面邁出了重要一步。這些系統(tǒng)能夠代表用戶做出決策并采取行動。
對 AI 研究人員而言,實現(xiàn)推理能力是朝著人類級智能邁進(jìn)的重要一步。
理論上,如果一個模型能夠超越簡單的模式識別,在醫(yī)學(xué)、工程等領(lǐng)域有望實現(xiàn)突破性進(jìn)展。
(來源:OpenAI)
在各項基準(zhǔn)測試中,o1 相較于 GPT-4o 都表現(xiàn)出了顯著的進(jìn)步。
在 57 個大規(guī)模多任務(wù)語言理解(MMLU,Massive Multitask Language Understanding)子類別中,o1 在 54 個類別中超越了 GPT-4o。在一些需要大量推理的基準(zhǔn)測試中,o1 的表現(xiàn)甚至可以與人類專家相媲美。
在數(shù)學(xué)能力方面,o1 的表現(xiàn)尤為出色。在美國數(shù)學(xué)邀請賽中,o1 平均解決了 74% 的問題,而 GPT-4o 僅能解決 12%。
通過使用共識和重新排序等技巧,o1 的得分率甚至可以達(dá)到 93%,這一成績足以使其躋身全美前 500 名學(xué)生之列。
在 GPQA 鉆石級測試(一項測試化學(xué)、物理和生物學(xué)專業(yè)知識的困難智力基準(zhǔn))中,o1 超越了人類專家的表現(xiàn),成為首個在該基準(zhǔn)測試中實現(xiàn)這一突破的模型。
然而,OpenAI 強(qiáng)調(diào),“這并不意味著 o1 在所有方面都比博士更有能力”,只是在解決某些特定問題時表現(xiàn)更為出色。
在編程方面,o1 也展現(xiàn)出了驚人的能力。在 2024 年國際信息學(xué)奧林匹克中,基于 o1 初始化并進(jìn)一步訓(xùn)練的模型獲得了 213 分,排名位于第 49 百分位。
在模擬的 Codeforces 競賽中,這個模型達(dá)到了 1807 的 Elo 評分,超過了 93% 的人類選手。
盡管 o1 在推理能力方面取得了巨大進(jìn)步,但 OpenAI 承認(rèn)它并不適用于所有場景。
在一項人類偏好評估中,o1 在數(shù)據(jù)分析、編程和數(shù)學(xué)等需要大量推理的領(lǐng)域明顯優(yōu)于 GPT-4o,但在某些自然語言處理任務(wù)中表現(xiàn)不佳。
就像其他所有大模型一樣,o1 模型也會因為各種原因給出錯誤答案。在少數(shù)情況下,它會在明知答案有誤的情況下,仍然將其返回給用戶。
安全性是 OpenAI 一直關(guān)注的重點。通過將安全策略整合到推理模型的思維鏈中,OpenAI 發(fā)現(xiàn)這是一種有效的方法,可以穩(wěn)健地傳授人類價值觀和原則。
o1 在關(guān)鍵的越獄評估和最嚴(yán)格的內(nèi)部安全基準(zhǔn)測試中,都取得了顯著改進(jìn)。
OpenAI 認(rèn)為,o1 及其后續(xù)版本將為 AI 在科學(xué)、編碼、數(shù)學(xué)等相關(guān)領(lǐng)域的應(yīng)用開辟新的可能性。
然而,他們也意識到這項技術(shù)可能帶來的潛在風(fēng)險,因此決定不向用戶直接展示原始的思維鏈,而是提供一個模型生成的思維鏈摘要。
總的來說,OpenAI o1 的發(fā)布代表了 AI 推理能力的重大進(jìn)步。隨著 OpenAI 繼續(xù)改進(jìn)這一模型,期待看到更多令人興奮的應(yīng)用和突破。
然而,實現(xiàn)技術(shù)發(fā)展、安全及倫理問題之間的平衡,仍然是 AI 領(lǐng)域所面臨的長期挑戰(zhàn)。
參考資料:
https://openai.com/index/learning-to-reason-with-llms/
https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt
https://gizmodo.com/openai-releases-its-highly-anticipated-gpt-o1-model-2000498162
運(yùn)營/排版:何晨龍