超碰人人婷婷五月天,国产91色在线综合亚洲,业余性自由色xxxx视频

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：262次

導(dǎo)讀：OpenAI的12天12場(chǎng)直播收官，離AGI（artificial general intelligence，通用人工智能）似乎又更近了一步。當(dāng)?shù)貢r(shí)間12月20日，和網(wǎng)友猜測(cè)的一樣，人工智能（AI）巨頭OpenAI發(fā)布最新推理模型o3和o3-mini。前一天，OpenAI公司CEO山姆奧特曼（Sam Altman）就曾發(fā)文提到三個(gè)“o”暗示了o3的到來(lái)。為何新模型跳過(guò)了o2直接命名o3？奧特曼表示是為了避免和英國(guó)電信運(yùn)營(yíng)商O2沖突，“按邏 ......

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3

OpenAI的12天12場(chǎng)直播收官，離AGI（artificial general intelligence，通用人工智能）似乎又更近了一步。

當(dāng)?shù)貢r(shí)間12月20日，和網(wǎng)友猜測(cè)的一樣，人工智能（AI）巨頭OpenAI發(fā)布最新推理模型o3和o3-mini。前一天，OpenAI公司CEO山姆奧特曼（Sam Altman）就曾發(fā)文提到三個(gè)“o”暗示了o3的到來(lái)。

為何新模型跳過(guò)了o2直接命名o3？奧特曼表示是為了避免和英國(guó)電信運(yùn)營(yíng)商O2沖突，“按邏輯應(yīng)該稱為o2，但我們起名字的能力實(shí)在太糟了，只能把它稱作o3”。

據(jù)介紹，在編碼測(cè)試SWE-Bench Verified中，o3性能比o1高出22.8%；在Codeforces競(jìng)技編程中得分為2727分，相當(dāng)于位列第175名的人類選手，甚至超過(guò)了OpenAI的首席科學(xué)家（2655分）；在數(shù)學(xué)競(jìng)賽AIME 2024和專家級(jí)科學(xué)問(wèn)題基準(zhǔn)測(cè)試GPQA Diamond中成績(jī)都得到明顯提升；而在令很多AI和數(shù)學(xué)家都束手無(wú)策的最難數(shù)學(xué)和推理挑戰(zhàn)FrontierMath中，o3解決了25.2%的問(wèn)題，其他模型均未超過(guò)2%。

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3

o3在多個(gè)測(cè)試中得分都較上一代產(chǎn)品o1得到明顯提升

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3

FrontierMath測(cè)試結(jié)果

不過(guò)，o3和o3-mini并未正式發(fā)布，安全研究人員目前可以注冊(cè)獲取o3-mini的預(yù)覽版，o3預(yù)覽版也將在之后的某個(gè)時(shí)間推出，OpenAI沒(méi)有給出具體時(shí)間。在直播的一開(kāi)始，奧特曼也強(qiáng)調(diào)了此次并不是發(fā)布，只是宣布o(jì)3。他表示，計(jì)劃在1月底發(fā)布o(jì)3-mini，然后再發(fā)布o(jì)3。

據(jù)外媒報(bào)道，AI安全測(cè)試人員發(fā)現(xiàn)，與傳統(tǒng)的“非推理”模型相比，OpenAI此前發(fā)布的o1的推理能力使其試圖欺騙人類用戶的比例更高，同樣，Meta、Anthropic和谷歌的領(lǐng)先模型也是如此。而o3試圖欺騙用戶的比例可能比它的前身更高。

OpenAI在博客中表示，正在使用一種新技術(shù)“慎重對(duì)齊”（deliberative alignment），來(lái)使o3等模型符合其安全原則。

通過(guò)OpenAI所謂的“私人思維鏈”，o3被訓(xùn)練成在做出反應(yīng)之前先“思考”�？梢詫�(duì)任務(wù)進(jìn)行推理并提前規(guī)劃，在較長(zhǎng)時(shí)間內(nèi)執(zhí)行一系列動(dòng)作，幫助找出解決方案。

在實(shí)踐中，當(dāng)收到一個(gè)提示時(shí)，o3會(huì)在做出反應(yīng)之前暫停，考慮一些相關(guān)的提示，并沿途“解釋”其推理過(guò)程。一段時(shí)間后，模型會(huì)總結(jié)出它認(rèn)為最準(zhǔn)確的答案。o3 的新功能是“調(diào)整”推理時(shí)間，可以設(shè)置為低、中或高計(jì)算量（即思考時(shí)間），計(jì)算時(shí)間越長(zhǎng)，執(zhí)行任務(wù)時(shí)的表現(xiàn)就越好。

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3

與GPT-4o等大模型相比，o1模型在拒絕回答惡意越獄提示和不過(guò)度拒絕良性越獄提示方面都較為領(lǐng)先。

ARC-AGI（通用人工智能抽象與推理語(yǔ)料庫(kù)）發(fā)起者、Keras（用Python編寫(xiě)的高級(jí)神經(jīng)網(wǎng)絡(luò)API）之父弗朗索瓦肖萊（Francois Chollet）在o3發(fā)布后公布了一篇測(cè)試報(bào)告。

報(bào)告顯示，o3在高計(jì)算量模式下獲得了87.5%的分?jǐn)?shù)，在低計(jì)算量模式下，性能是o1的三倍。成本方面，低計(jì)算量模式下，每個(gè)任務(wù)需要花費(fèi)20美元，而在高計(jì)算量模式中每個(gè)任務(wù)需要數(shù)千美元。

肖萊表示：“它非常昂貴，但并不只是‘蠻干’這些能力是全新的領(lǐng)域，需要科學(xué)界的認(rèn)真關(guān)注�！�

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3

弗朗索瓦肖萊對(duì)于o3不同計(jì)算模式的測(cè)試結(jié)果

肖萊認(rèn)為，雖然o3給人留下了深刻印象，是邁向AGI的一個(gè)重要里程碑，但并不就是AGI，仍然有相當(dāng)多非常簡(jiǎn)單的ARC-AGI-1的任務(wù)是o3無(wú)法解決的，同時(shí)還有跡象表明ARC-AGI-2對(duì)o3來(lái)說(shuō)仍極具挑戰(zhàn)性，“這表明在不涉及專業(yè)知識(shí)的情況下，創(chuàng)建對(duì)人類來(lái)說(shuō)容易但對(duì)人工智能來(lái)說(shuō)不可能的不飽和、有趣的基準(zhǔn)仍然是可行的。當(dāng)創(chuàng)建這樣的測(cè)試變得完全不可能時(shí)，我們將擁有AGI”。

當(dāng)然，ARC-AGI只是AI領(lǐng)域的重要基準(zhǔn)之一，對(duì)AGI的定義只是其中之一。

肖萊稱，主要需要解決的問(wèn)題是o3背后技術(shù)的擴(kuò)展瓶頸在哪。如果人類標(biāo)注的CoT數(shù)據(jù)（Chain-of-Thought，思維鏈）是一個(gè)主要瓶頸，那么它的能力就會(huì)像大模型一樣迅速達(dá)到頂峰（直到下一個(gè)架構(gòu)出現(xiàn)）。如果唯一的瓶頸是測(cè)試時(shí)間搜索（Test-Time Search），那么未來(lái)我們將看到持續(xù)的擴(kuò)展。

值得一提的是，除了OpenAI，各家AI公司近期也紛紛發(fā)布推理模型。

11月16日，月之暗面（Moonshot AI）Kimi推出新一代數(shù)學(xué)推理模型k0-math；11月20日，DeepSeek發(fā)布了首個(gè)推理模型DeepSeek-R1-Lite預(yù)覽版。11月28日，阿里云通義團(tuán)隊(duì)發(fā)布全新AI推理模型QwQ-32B-Preview；在當(dāng)?shù)貢r(shí)間12月19日，谷歌發(fā)布首個(gè)推理模型Gemini 2.0 Flash Thinking。

英偉達(dá)CEO黃仁勛在10月的一次訪談中曾表達(dá)了對(duì)于推理的看好。他認(rèn)為：“現(xiàn)在我們?cè)诤笥?xùn)練和推理階段看到了擴(kuò)展，預(yù)訓(xùn)練再也不被視為艱難，推理也變得復(fù)雜。推理方面即將因推理鏈的出現(xiàn)而大幅增長(zhǎng)……這是一場(chǎng)智能生產(chǎn)的革命，推理的增長(zhǎng)將達(dá)到億倍的規(guī)模，這就像上學(xué)是為了將來(lái)在社會(huì)中有所貢獻(xiàn)，訓(xùn)練模型很重要，但最終的目標(biāo)是推理”。

月之暗面Kimi創(chuàng)始人楊植麟也在11月表示，推理的占比必然會(huì)遠(yuǎn)超訓(xùn)練，AI產(chǎn)品包括AI技術(shù)接下來(lái)的發(fā)展，很重要的能力就是更加深度的推理，能夠把現(xiàn)在只是短鏈路的簡(jiǎn)單的問(wèn)答，變成更長(zhǎng)鏈路的組合式任務(wù)的操作。

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：262次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：262次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

很強(qiáng)也很貴！OpenAI12天12場(chǎng)直播收官，官宣最新推理模型o3
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-12-21 12:11:42 瀏覽：262次