展會信息港展會大全

科學(xué)家實現(xiàn)大模型動態(tài)選取推理,優(yōu)于靜態(tài)推理技術(shù)等方法
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-16 22:07:00   瀏覽:269次  

導(dǎo)讀:近年來,增強大模型的推理能力引起了廣泛關(guān)注,比如近期OpenAI 的 o1 作為一個推理增強的大模型就引起了 AI 社區(qū)的廣泛關(guān)注。美國喬治梅森大學(xué)岳牧榮博士和所在團隊注意到,先前很多研究已經(jīng)證明了各種提示策略在幫助大模型進行推理方面的有效性,例如讓大模型逐步思考、回答前反思、使用程序解決問題等。圖|岳牧榮(來源:岳牧榮)然而,這些方法通常將靜態(tài)的、預(yù)定義好的推 ......

近年來,增強大模型的推理能力引起了廣泛關(guān)注,比如近期OpenAI 的 o1 作為一個推理增強的大模型就引起了 AI 社區(qū)的廣泛關(guān)注。

美國喬治梅森大學(xué)岳牧榮博士和所在團隊注意到,先前很多研究已經(jīng)證明了各種提示策略在幫助大模型進行推理方面的有效性,例如讓大模型逐步思考、回答前反思、使用程序解決問題等。

科學(xué)家實現(xiàn)大模型動態(tài)選取推理,優(yōu)于靜態(tài)推理技術(shù)等方法

圖|岳牧榮(來源:岳牧榮)

然而,這些方法通常將靜態(tài)的、預(yù)定義好的推理行動路徑統(tǒng)一應(yīng)用于所有問題,比如對所有的問題都要先逐步思考、進行反思。

而忽略以下兩點:第一點,根據(jù)每個問題的具體特征不同,最佳的推理動作可能也不同,比如對于解方程問題,在解決完方程后加入一個驗證過程會有所幫助,但對于一個知識性的問題,大模型的自驗證很難帶來提升;第二點. 不同的大模型所適合的推理動作也不相同,比如以代碼為主要訓(xùn)練數(shù)據(jù)的大模型可能更適合寫代碼解決問題。

因此,研究人員的目標(biāo)就是讓大模型學(xué)習(xí)到根據(jù)不同的問題情況和自身的能力動態(tài)的選取的推理動作。

在近期一篇論文中,他們提出了 DOTS,這是一種通過最佳推理動作軌跡搜索使大模型能夠動態(tài)推理的方法。

該方法涉及三個關(guān)鍵步驟:i) 定義可以組合成各種推理動作軌跡的原子推理動作模塊;ii) 讓目標(biāo)大模型迭代探索和評估的過程,為每個訓(xùn)練問題尋找最佳動作軌跡;iii) 使用收集到的最優(yōu)軌跡訓(xùn)練大模型來規(guī)劃未見問題的推理軌跡。

與此同時,他們提出了兩種學(xué)習(xí)范式,對于閉源的大模型如 GPT 系列,他們將微調(diào)外部大模型作為規(guī)劃器來指導(dǎo)閉源的大模型;對于開源的大模型,他們直接微調(diào)大模型本身使得推理動作的規(guī)劃能力可以被內(nèi)化到大模型自身。

科學(xué)家實現(xiàn)大模型動態(tài)選取推理,優(yōu)于靜態(tài)推理技術(shù)等方法

(來源:arXiv)

研究人員在多個推理任務(wù)中的實驗表明,他們的方法始終優(yōu)于靜態(tài)推理技術(shù)和 vanilla 指令調(diào)整方法。進一步的分析表明,本次方法使大模型能夠根據(jù)問題的復(fù)雜性調(diào)整其計算,將更深層次的思考和推理分配給更難的問題。

日前,相關(guān)論文《DOTS:通過最佳推理軌跡搜索在 LLMS 中學(xué)習(xí)動態(tài)推理》(DOTS:LEARNING TO REASON DYNAMICALLY IN LLMS VIA OPTIMAL REASONING TRAJECTORIES SEARCH)已被國際表征學(xué)習(xí)大會(International Conference on Learning Representations)2025 接受。

科學(xué)家實現(xiàn)大模型動態(tài)選取推理,優(yōu)于靜態(tài)推理技術(shù)等方法

圖 | 相關(guān)論文(來源:arXiv)

審稿人指出,這篇論文提出了一種動態(tài)推理方法,可以使模型根據(jù)輸入問題的特點決定適當(dāng)?shù)脑觿幼,并且進行了全面的實驗來證明所提出方法的有效性。

DOTS 方法的核心在于通過動態(tài)搜索最佳推理路徑,這種動態(tài)理能力在需要高度復(fù)雜推理和靈活應(yīng)對不同問題的場景中,DOTS 方法將展現(xiàn)出獨特的優(yōu)勢,如在智能助理中的使用中,用戶可能會交替提出一些非常簡單的問題,比如“今天的天氣怎么樣”或者非常專業(yè)的問題,DOTS 能夠根據(jù)通過動態(tài)調(diào)整推理路徑,優(yōu)化用戶交互體驗。

除此之外,DOTS 方法可以被認(rèn)為是一種收集高質(zhì)量訓(xùn)練數(shù)據(jù)的方法,在未來的大模型 post-training 中也可以被用來提升推理能力。

這項研究始于岳牧榮在騰訊西雅圖人工智能實驗室實習(xí)期間,在姚文林博士(現(xiàn)任亞馬遜高級應(yīng)用科學(xué)家)的指導(dǎo)下展開。

大模型的推理能力一直是學(xué)術(shù)界和工業(yè)界的熱議話題,因此他們最初的目標(biāo)便是探索如何進一步提升這一關(guān)鍵能力。

最初,他們深入探討了當(dāng)前主流的提升大模型推理能力的方法,包括提示工程和指令調(diào)優(yōu)。然而,在分析的過程中,他們逐漸發(fā)現(xiàn)現(xiàn)有方法的局限:這些方法往往缺乏一個至關(guān)重要的環(huán)節(jié),即缺少讓大模型在回答問題前主動進行思考的環(huán)節(jié)。

就像人在面對復(fù)雜的數(shù)學(xué)題時,會主動評估是否需要借助計算工具;在玩 24 點游戲時,會自覺檢驗自己提出的方案是否合理。但現(xiàn)有的大模型,尤其是開源模型,卻欠缺這種靈活的思維模式。

他們認(rèn)識到,這一問題的根源在于訓(xùn)練數(shù)據(jù)的缺失。傳統(tǒng)的訓(xùn)練數(shù)據(jù)通常只包含問題和答案,而對于如何選擇和使用推理動作的策略指導(dǎo)卻少之又少。譬如,一道數(shù)學(xué)題的訓(xùn)練數(shù)據(jù)可能只展示了解題步驟,大模型只知道正確答案,卻沒有嘗試各種的推理行為,比如分解問題或驗證結(jié)果是否對獲得答案有所幫助。

基于這種思考,他們構(gòu)思了本文這種全新的方法:給定訓(xùn)練數(shù)據(jù),讓大模型自主探索各種可能的推理動作組合,并從中學(xué)習(xí)到最佳策略。在面對不同問題時,大模型通過嘗試問題分解、使用代碼、結(jié)果驗證等推理動作來解決問題。

他們根據(jù)嘗試的結(jié)果,讓大模型學(xué)習(xí)如何預(yù)測最好的推理路徑,從而優(yōu)化自身的推理能力。

研究中,他們不斷調(diào)整和完善方法。例如,初期的實驗效果提升不顯著,他們便反思是否需要為大模型提供更明確的指導(dǎo)例如通過解釋來幫助其理解和學(xué)習(xí)推理動作。

經(jīng)過多次的改進后,他們在多個數(shù)據(jù)集和多種設(shè)置下進行了廣泛測試,實驗表明大模型的推理能力在各個數(shù)據(jù)集和不同的條件下都有所提升。實驗的成功不僅驗證了他們的方法有效性,更重要的是,它展示了大模型具有巨大的潛力:他們可以通過訓(xùn)練讓大模型具備能深思熟慮,自主規(guī)劃推理動作的能力。

后續(xù), 他們希望在更大規(guī)模的數(shù)據(jù)集上進行訓(xùn)練,結(jié)合更多的推理動作,同時探索如何更好的利用搜索獲得的結(jié)果。

目前,岳牧榮是美國喬治梅森大學(xué)的在讀博士生,師從姚子瑜教授,研究方向是是設(shè)計高效、安全且經(jīng)濟的大模型代理來處理復(fù)雜的推理任務(wù)。

參考資料:

1.https://arxiv.org/pdf/2410.03864

運營/排版:何晨龍

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港