科技新聞《一線》
作者|紀振宇
編輯|劉鵬
生成式人工智能領(lǐng)域領(lǐng)軍公司OpenAI,在美國時間9月12日發(fā)布擁有深度思考能力的 o1 預覽模型,OpenAI稱,這是未來一系列的“用于解決更難問題的推理模型”的一部分,并強調(diào),模型將“花更多的時間”對涉及科學、編程和數(shù)學方面的復雜問題和任務(wù)去“思考”。
OpenAI表示,這些模型的思考過程“更像人”,在面對復雜問題時,會花更多的時間去思考而不是立即做出回應。通過訓練,模型將學會如何進一步改善思考過程,嘗試不同的策略以及認識到之前的錯誤。
OpenAI稱,測試后發(fā)現(xiàn)新模型的表現(xiàn)已經(jīng)接近于物理、化學和生物方面的博士生水平,這些測試也發(fā)現(xiàn)在編程和數(shù)學方面展現(xiàn)出更非凡的能力。
作為對比,對于國際數(shù)學奧賽(IMO)測試的資格考試,GPT-4o 只能解決13%的問題,但最新的推理模型能夠解決83%的問題。新模型的編程能力在相關(guān)的編程測試中,達到超出89%其他模型的水平。
但OpenAI方面也強調(diào),作為早期的預覽版模型,新推理模型還不能像ChatGPT那樣解決更全面的問題,例如通過瀏覽網(wǎng)頁尋找信息、上傳文件和圖像等,換句話說,推理模型的主要能力體現(xiàn)在深度思考上,而非其他廣泛的淺層應用。
在安全性方面,OpenAI稱在對新模型的訓練方面采取了新的訓練路徑,使得模型依照安全和利益一致性的指導進行。由于推理模型能夠理解安全條例的上下文,所以能夠更有效率地應用它們。
OpenAI稱,衡量安全性的一個測試方法是,用戶通過不斷嘗試繞過安全條款(又被稱作“越獄”)的情況下,模型能否繼續(xù)遵循安全條款輸出結(jié)果。在最嚴苛的類似測試下,在滿分100分的情況下,GPT-4o拿到了22分,但新的o1預覽模型則取得了84分。
OpenAI稱,新的推理模型強化的推理能力對于在科學、編程、數(shù)學和其他專業(yè)領(lǐng)域方面顯得更有用,例如o1模型能夠被醫(yī)療研究人員用于注釋細胞序列數(shù)據(jù),也能夠被物理學家用于生成復雜的數(shù)學公式,并被各個領(lǐng)域的開發(fā)人員用于構(gòu)建和執(zhí)行多步驟的工作流程。
從OpenAI最新發(fā)布的推理模型可以看出,對于新推出的一系列推理模型,OpenAI將精力放在了模型處理和解決專業(yè)領(lǐng)域問題的能力上,而非更廣泛的能力。從目前OpenAI公開發(fā)布的模型和產(chǎn)品來看,也體現(xiàn)出進一步細分的趨勢,既有針對廣泛人群和用戶的ChatGPT人工智能聊天應用,有解決圖像、視頻的DallE、Sora模型,也有剛推出的針對專業(yè)領(lǐng)域、需要深度思考和問題解決能力的o1 preview。