超清国产粉嫩456在线免播放,国产无人区码卡功能齐全

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法

來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:07:00 瀏覽：269次

導(dǎo)讀：近年來，增強大模型的推理能力引起了廣泛關(guān)注，比如近期OpenAI 的 o1 作為一個推理增強的大模型就引起了 AI 社區(qū)的廣泛關(guān)注。美國喬治梅森大學(xué)岳牧榮博士和所在團隊注意到，先前很多研究已經(jīng)證明了各種提示策略在幫助大模型進行推理方面的有效性，例如讓大模型逐步思考、回答前反思、使用程序解決問題等。圖｜岳牧榮（來源：岳牧榮）然而，這些方法通常將靜態(tài)的、預(yù)定義好的推 ......

近年來，增強大模型的推理能力引起了廣泛關(guān)注，比如近期OpenAI 的 o1 作為一個推理增強的大模型就引起了 AI 社區(qū)的廣泛關(guān)注。

美國喬治梅森大學(xué)岳牧榮博士和所在團隊注意到，先前很多研究已經(jīng)證明了各種提示策略在幫助大模型進行推理方面的有效性，例如讓大模型逐步思考、回答前反思、使用程序解決問題等。

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法

圖｜岳牧榮（來源：岳牧榮）

然而，這些方法通常將靜態(tài)的、預(yù)定義好的推理行動路徑統(tǒng)一應(yīng)用于所有問題，比如對所有的問題都要先逐步思考、進行反思。

而忽略以下兩點：第一點，根據(jù)每個問題的具體特征不同，最佳的推理動作可能也不同，比如對于解方程問題，在解決完方程后加入一個驗證過程會有所幫助，但對于一個知識性的問題，大模型的自驗證很難帶來提升；第二點. 不同的大模型所適合的推理動作也不相同，比如以代碼為主要訓(xùn)練數(shù)據(jù)的大模型可能更適合寫代碼解決問題。

因此，研究人員的目標(biāo)就是讓大模型學(xué)習(xí)到根據(jù)不同的問題情況和自身的能力動態(tài)的選取的推理動作。

在近期一篇論文中，他們提出了 DOTS，這是一種通過最佳推理動作軌跡搜索使大模型能夠動態(tài)推理的方法。

該方法涉及三個關(guān)鍵步驟：i) 定義可以組合成各種推理動作軌跡的原子推理動作模塊；ii) 讓目標(biāo)大模型迭代探索和評估的過程，為每個訓(xùn)練問題尋找最佳動作軌跡；iii) 使用收集到的最優(yōu)軌跡訓(xùn)練大模型來規(guī)劃未見問題的推理軌跡。

與此同時，他們提出了兩種學(xué)習(xí)范式，對于閉源的大模型如 GPT 系列，他們將微調(diào)外部大模型作為規(guī)劃器來指導(dǎo)閉源的大模型；對于開源的大模型，他們直接微調(diào)大模型本身使得推理動作的規(guī)劃能力可以被內(nèi)化到大模型自身。

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法

（來源：arXiv）

研究人員在多個推理任務(wù)中的實驗表明，他們的方法始終優(yōu)于靜態(tài)推理技術(shù)和 vanilla 指令調(diào)整方法。進一步的分析表明，本次方法使大模型能夠根據(jù)問題的復(fù)雜性調(diào)整其計算，將更深層次的思考和推理分配給更難的問題。

日前，相關(guān)論文《DOTS：通過最佳推理軌跡搜索在 LLMS 中學(xué)習(xí)動態(tài)推理》（DOTS：LEARNING TO REASON DYNAMICALLY IN LLMS VIA OPTIMAL REASONING TRAJECTORIES SEARCH）已被國際表征學(xué)習(xí)大會（International Conference on Learning Representations）2025 接受。

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法

圖 | 相關(guān)論文（來源：arXiv）

審稿人指出，這篇論文提出了一種動態(tài)推理方法，可以使模型根據(jù)輸入問題的特點決定適當(dāng)?shù)脑觿幼�，并且進行了全面的實驗來證明所提出方法的有效性。

DOTS 方法的核心在于通過動態(tài)搜索最佳推理路徑，這種動態(tài)理能力在需要高度復(fù)雜推理和靈活應(yīng)對不同問題的場景中，DOTS 方法將展現(xiàn)出獨特的優(yōu)勢，如在智能助理中的使用中，用戶可能會交替提出一些非常簡單的問題，比如“今天的天氣怎么樣”或者非常專業(yè)的問題，DOTS 能夠根據(jù)通過動態(tài)調(diào)整推理路徑，優(yōu)化用戶交互體驗。

除此之外，DOTS 方法可以被認(rèn)為是一種收集高質(zhì)量訓(xùn)練數(shù)據(jù)的方法，在未來的大模型 post-training 中也可以被用來提升推理能力。

這項研究始于岳牧榮在騰訊西雅圖人工智能實驗室實習(xí)期間，在姚文林博士（現(xiàn)任亞馬遜高級應(yīng)用科學(xué)家）的指導(dǎo)下展開。

大模型的推理能力一直是學(xué)術(shù)界和工業(yè)界的熱議話題，因此他們最初的目標(biāo)便是探索如何進一步提升這一關(guān)鍵能力。

最初，他們深入探討了當(dāng)前主流的提升大模型推理能力的方法，包括提示工程和指令調(diào)優(yōu)。然而，在分析的過程中，他們逐漸發(fā)現(xiàn)現(xiàn)有方法的局限：這些方法往往缺乏一個至關(guān)重要的環(huán)節(jié)，即缺少讓大模型在回答問題前主動進行思考的環(huán)節(jié)。

就像人在面對復(fù)雜的數(shù)學(xué)題時，會主動評估是否需要借助計算工具；在玩 24 點游戲時，會自覺檢驗自己提出的方案是否合理。但現(xiàn)有的大模型，尤其是開源模型，卻欠缺這種靈活的思維模式。

他們認(rèn)識到，這一問題的根源在于訓(xùn)練數(shù)據(jù)的缺失。傳統(tǒng)的訓(xùn)練數(shù)據(jù)通常只包含問題和答案，而對于如何選擇和使用推理動作的策略指導(dǎo)卻少之又少。譬如，一道數(shù)學(xué)題的訓(xùn)練數(shù)據(jù)可能只展示了解題步驟，大模型只知道正確答案，卻沒有嘗試各種的推理行為，比如分解問題或驗證結(jié)果是否對獲得答案有所幫助。

基于這種思考，他們構(gòu)思了本文這種全新的方法：給定訓(xùn)練數(shù)據(jù)，讓大模型自主探索各種可能的推理動作組合，并從中學(xué)習(xí)到最佳策略。在面對不同問題時，大模型通過嘗試問題分解、使用代碼、結(jié)果驗證等推理動作來解決問題。

他們根據(jù)嘗試的結(jié)果，讓大模型學(xué)習(xí)如何預(yù)測最好的推理路徑，從而優(yōu)化自身的推理能力。

研究中，他們不斷調(diào)整和完善方法。例如，初期的實驗效果提升不顯著，他們便反思是否需要為大模型提供更明確的指導(dǎo)例如通過解釋來幫助其理解和學(xué)習(xí)推理動作。

經(jīng)過多次的改進后，他們在多個數(shù)據(jù)集和多種設(shè)置下進行了廣泛測試，實驗表明大模型的推理能力在各個數(shù)據(jù)集和不同的條件下都有所提升。實驗的成功不僅驗證了他們的方法有效性，更重要的是，它展示了大模型具有巨大的潛力：他們可以通過訓(xùn)練讓大模型具備能深思熟慮，自主規(guī)劃推理動作的能力。

后續(xù), 他們希望在更大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練，結(jié)合更多的推理動作，同時探索如何更好的利用搜索獲得的結(jié)果。

目前，岳牧榮是美國喬治梅森大學(xué)的在讀博士生，師從姚子瑜教授，研究方向是是設(shè)計高效、安全且經(jīng)濟的大模型代理來處理復(fù)雜的推理任務(wù)。

參考資料：

1.https://arxiv.org/pdf/2410.03864

運營/排版：何晨龍

相關(guān)熱詞： 科學(xué)家岳牧榮模型解方程語言模型

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:07:00 瀏覽：269次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法 來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:07:00 瀏覽：269次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

科學(xué)家實現(xiàn)大模型動態(tài)選取推理，優(yōu)于靜態(tài)推理技術(shù)等方法
來源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-16 22:07:00 瀏覽：269次