展會信息港展會大全

OpenAI上線深度研究功能,人類終極考試的表現(xiàn)超過DeepSeek R1
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-04 18:04:49   瀏覽:153次  

導(dǎo)讀:騰訊科技《AI未來指北》特約作者 曉靜 無忌編輯 鄭可君北京時(shí)間2月3日上午,OpenAI正式推出面向深度研究領(lǐng)域的智能體產(chǎn)品深度研究(Deep research)功能。曾經(jīng)一位經(jīng)驗(yàn)豐富的行業(yè)分析師需要花費(fèi)數(shù)天甚至數(shù)周才能完成的專業(yè)研究報(bào)告,現(xiàn)在借助這項(xiàng)突破性功能,只需5-30分鐘就能完成。這個(gè)堪比"AI研究員"的功能,能夠自主分析復(fù)雜的專業(yè)信息,實(shí)時(shí)查找和綜合數(shù)百個(gè)在線資源, ......

OpenAI上線深度研究功能,人類終極考試的表現(xiàn)超過DeepSeek R1

科技新聞《AI未來指北》特約作者 曉靜 無忌

編輯 鄭可君

北京時(shí)間2月3日上午,OpenAI正式推出面向深度研究領(lǐng)域的智能體產(chǎn)品深度研究(Deep research)功能。

曾經(jīng)一位經(jīng)驗(yàn)豐富的行業(yè)分析師需要花費(fèi)數(shù)天甚至數(shù)周才能完成的專業(yè)研究報(bào)告,現(xiàn)在借助這項(xiàng)突破性功能,只需5-30分鐘就能完成。這個(gè)堪比"AI研究員"的功能,能夠自主分析復(fù)雜的專業(yè)信息,實(shí)時(shí)查找和綜合數(shù)百個(gè)在線資源,最終生成一份專業(yè)水準(zhǔn)的完整報(bào)告。

OpenAI上線深度研究功能,人類終極考試的表現(xiàn)超過DeepSeek R1

這個(gè)強(qiáng)大功能由即將推出的OpenAI o3模型的特制版本提供支持,該版本經(jīng)過專門優(yōu)化,適配網(wǎng)頁瀏覽和數(shù)據(jù)分析場景。它能夠運(yùn)用推理能力,在互聯(lián)網(wǎng)上搜索、解讀和分析海量的文本、圖像和PDF文件,并能根據(jù)所遇到的信息靈活調(diào)整研究方向。

值得注意的是,在對這個(gè)智能體的能力評測中,OpenAI特別對比了DeepSeek R1,稱在Humanity’s Last Exam(簡稱HLE)測試中,深度研究所使用的模型在專家級問題上達(dá)到了26.6%的準(zhǔn)確率,刷新之前的18.2%的記錄。

相比之下,DeepSeek的R1模型的準(zhǔn)確率是9.4%。

OpenAI反擊DeepSeek!剛發(fā)布新模型Deep research,刷新最高記錄

這一測試由全球眾多領(lǐng)域?qū)<夜餐_發(fā),目的是評估人工智能在廣泛學(xué)科領(lǐng)域的表現(xiàn),被視為衡量人工智能學(xué)術(shù)能力的前沿基準(zhǔn)。該測試包含超過3000道多項(xiàng)選擇題和簡答題,涵蓋從語言學(xué)到火箭科學(xué)、從古典學(xué)到生態(tài)學(xué)等100多個(gè)學(xué)科領(lǐng)域。

由此也可以看出,DeepSeek確實(shí)讓OpenAI感覺到壓力不小。

科技新聞綜合了OpenAI的深度研究介紹文檔及技術(shù)解讀直播,梳理了本次發(fā)布最值得關(guān)注的技術(shù)要點(diǎn)。

OpenAI上線深度研究功能,人類終極考試的表現(xiàn)超過DeepSeek R1

一、化身專業(yè)研究員,擅長尋找冷門信息并全網(wǎng)整合深度研究功能專為金融、科學(xué)、政策、工程等領(lǐng)域的高強(qiáng)度知識工作者設(shè)計(jì),此類人群需要全面、精準(zhǔn)且可靠的調(diào)研成果。同時(shí),它也適用于在購買汽車、家電、家具等需要謹(jǐn)慎研究的產(chǎn)品時(shí),希望尋求高度個(gè)性化建議的消費(fèi)者。

1、深度研究的輸出附有清晰的引用和對其思考過程的總結(jié),便于用戶查閱和驗(yàn)證信息。

2、它尤其擅長尋找冷門、非直觀信息,通過一次查詢即可幫助用戶卸載并加速復(fù)雜、耗時(shí)的網(wǎng)絡(luò)調(diào)研任務(wù),從而節(jié)省時(shí)間。

3、深度研究能夠獨(dú)立從網(wǎng)絡(luò)上發(fā)現(xiàn)、推理并整合各類見解。它在訓(xùn)練過程中采用了與OpenAI o1(OpenAI的首個(gè)推理模型)相同的強(qiáng)化學(xué)習(xí)方法,并針對瀏覽器和Python工具的使用進(jìn)行了真實(shí)任務(wù)訓(xùn)練。

雖然o1在編程、數(shù)學(xué)等技術(shù)領(lǐng)域表現(xiàn)出色,但許多現(xiàn)實(shí)挑戰(zhàn)需要從多樣化的在線資源中廣泛收集上下文信息。

深度研究在此基礎(chǔ)上進(jìn)一步拓展了推理能力,彌合了這一差距,使其能夠應(yīng)對人們在工作和日常生活中所面臨的各種問題。

在ChatGPT中,用戶可以選擇消息框中的“深度研究”選項(xiàng)并輸入問題。用戶可以向ChatGPT說明需求,也可以附件或電子表格,來增加問題的背景信息。一旦開始運(yùn)行,側(cè)邊欄會顯示已采取的步驟和使用的來源的總結(jié)。

深度研究完成工作可能需要5到30分鐘,具體時(shí)間取決于任務(wù)的復(fù)雜性和所需的信息量。在此期間,用戶可以離開或從事其他任務(wù)一旦研究完成,用戶將收到通知。最終輸出將以聊天中的報(bào)告形式呈現(xiàn)。

在未來幾周內(nèi),OpenAI還將在這類報(bào)告中增加嵌入式圖像、數(shù)據(jù)可視化和其他分析結(jié)果,以提供更多的清晰度和背景信息。

與深度研究相比,GPT-4o更適合實(shí)時(shí)、多模態(tài)的對話。

對于需要深入探索和詳細(xì)分析的多方面、特定領(lǐng)域的復(fù)雜問題,深度研究能夠進(jìn)行廣泛的調(diào)研并為每個(gè)觀點(diǎn)提供引用,這與簡單的快速總結(jié)不同,它能夠提供一份經(jīng)過充分記錄和驗(yàn)證的詳細(xì)答案,可以直接作為工作成果使用。

二、端到端強(qiáng)化學(xué)習(xí)是重點(diǎn),多模塊協(xié)同工作

深度研究是通過端到端強(qiáng)化學(xué)習(xí),在多個(gè)領(lǐng)域中針對復(fù)雜的網(wǎng)絡(luò)瀏覽和推理任務(wù)進(jìn)行訓(xùn)練的。

通過這些訓(xùn)練,它學(xué)會了如何規(guī)劃并執(zhí)行多步驟的操作流程,以找到所需的數(shù)據(jù),并在必要時(shí)進(jìn)行回溯以及對實(shí)時(shí)信息做出反應(yīng)。

該模型還能夠?yàn)g覽用戶上傳的文件,利用Python工具繪制并迭代圖形,將其生成的圖形以及從網(wǎng)站獲取的圖像嵌入到回答中,并引用其來源中的具體句子或段落。

這種創(chuàng)新的學(xué)習(xí)方式打破了傳統(tǒng)機(jī)器學(xué)習(xí)需要人為劃分訓(xùn)練階段的限制,使模型能夠像人類研究者一樣進(jìn)行整體性的思考和決策。

在技術(shù)架構(gòu)層面,Deep Research由四個(gè)協(xié)同工作的核心模塊構(gòu)成,形成了一個(gè)完整的智能研究系統(tǒng)。

第一,是信息發(fā)現(xiàn)模塊,類似于系統(tǒng)的"探索者"。

贊助本站

相關(guān)熱詞: openai deepseek 騰訊 deep 考試

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港