奇月 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
提升LLM數(shù)學(xué)能力的新方法來了
一個(gè)大模型不行,那就兩個(gè)。讓他們彼此合作,糾正對(duì)方的錯(cuò)誤。
這就是來自加州大學(xué)和微軟研究院的最新研究成果:Flow-DPO。通過使用在線學(xué)習(xí)流(Flow)和直接偏好優(yōu)化(DPO, Direct Preference Optimization),可以讓LLM生成更加詳細(xì)和精確的推理軌跡。
同時(shí),這種在線多智能體(Agent)的學(xué)習(xí)形式還能挖掘數(shù)據(jù)中的深層信息,有效避免了人類標(biāo)注數(shù)據(jù)不夠準(zhǔn)確的問題。
我們先一起看個(gè)例子感受一下。
比如針對(duì)下面這道題:
方程 x + 2y + 3 = 0 的圖與方程 ax + 2y + 3 = 0 的圖互相垂直。請(qǐng)問ax + 2y + 3 = 0中,a 的值是多少?
基準(zhǔn)回答是這樣的:
方程 x + 2y + 3 = 0 的圖形的斜率為 -1/2,因?yàn)閳D形垂直,所以 ax + 2y + 3 = 0 的圖形的斜率必須是 x + 2y + 3 = 0 的負(fù)倒數(shù)。因此,方程 ax + 2y + 3 = 0 的斜率為2,改寫為2y = -ax - 3,然后兩邊除以 2,得到 y = -a/2x-3/2。將此與斜率截距形式 y = mx + b 相比,我們發(fā)現(xiàn)斜率 m 為 -a/2。由于我們知道斜率為 2,所以 - a/2= 2。將兩邊乘以 -2,得到 a = -4,答案為:-4。
而Flow-DPO的回答是這樣的:
要解決這個(gè)問題,我們需要了解線性方程中垂直線的概念。當(dāng)兩條直線垂直時(shí),它們的斜率互為負(fù)倒數(shù)。讓我們以斜率-截距形式復(fù)述給定方程 x + 2y + 3 = O,即 y = -1/2x - 3/2。這告訴我們直線的斜率是 - 1/2,F(xiàn)在,我們需要找出方程 ax + 2y + 3 = 0 所表示的直線的斜率。我們可以將方程改寫成斜率-截距形式,即 y = -a/2x - 3/2。這告訴我們這條直線的斜率是-a/2。由于兩條直線垂直,因此它們的斜率互為負(fù)倒數(shù)。這意味著 -1/2 * (-a/2) = 1,簡(jiǎn)化為 a = -4。因此,a 的值為 -4。
讓GTP-4o當(dāng)裁判,針對(duì)兩個(gè)模型的回答分析了一下,它認(rèn)為答案B(FLow-DPO)更好,原因有兩點(diǎn):
1.概念解釋
答案 A 的回答是:“我們可以利用斜率之間的負(fù)倒數(shù)關(guān)系來求解 a”。答案 B 花時(shí)間明確解釋了垂直的概念,強(qiáng)調(diào)垂直線的斜率是負(fù)倒數(shù)。這種回答更有教育意義,可以讓讀者理解數(shù)學(xué)背后的推理。
2.解題思路清晰
答案A推導(dǎo)出了正確的方程并正確地求解了方程,但引入了一些不必要的步驟。
例如,中間步驟涉及將方程改寫為2y = -ax - 3 和兩邊除以 2 的中間步驟比必要的步驟復(fù)雜。
答案 B 立即使用兩個(gè)方程的斜截距形式簡(jiǎn)化了方法。它有效地解釋了如何提取斜率,并直接比較了兩個(gè)等式的斜率,過程更直接,更容易理解。
結(jié)論
答案 B 的解釋更清晰、更透徹,既注重概念和公式,又避免了不必要的復(fù)雜性,這種循序漸進(jìn)的方法更易于理解和掌握。
可以看到,在解決真實(shí)數(shù)學(xué)問題的時(shí)候,F(xiàn)low-DPO生成的推理過程不僅有更詳細(xì)的指導(dǎo),還避免了不必要的復(fù)雜性,增強(qiáng)了可讀性和理解性。
這是怎么做到的呢?
兩個(gè)大模型彼此合作針對(duì)LLM解決數(shù)學(xué)問題時(shí)反饋信息有限、標(biāo)注數(shù)據(jù)質(zhì)量不高等問題,團(tuán)隊(duì)提出了一種新的方法。
那就是通過在線學(xué)習(xí)流(Flow)和直接偏好優(yōu)化(DPO)學(xué)習(xí)來生成高質(zhì)量的推理軌跡。
具體分為2個(gè)部分:
1.增量輸出生成Flow(Incremental Output Production Flow)
Flow-DPO采用了增量輸出生成Flow,其中有兩個(gè)獨(dú)立的LLM(Answer LLM和Stop LLM)協(xié)同工作,通過迭代通信構(gòu)建解決方案。
具體來說,Answer LLM一次會(huì)生成一個(gè)有限的答案塊,而Stop LLM則判斷部分答案是否達(dá)到最終狀態(tài),兩個(gè)LLM通過迭代式學(xué)習(xí)不斷進(jìn)步。
Answer LLM和Stop LLM的底層都是相同的基礎(chǔ)模型,但它們使用不同的LoRA適配器進(jìn)行了微調(diào),可以專門完成各自的任務(wù)。
而且在訓(xùn)練過程中,F(xiàn)low-DPO可實(shí)現(xiàn)更精細(xì)的控制較小的塊大小,靈活適應(yīng)不同的概念和方法,較大的塊大小近似于單次模型生成。
2.在線Flow學(xué)習(xí)與回滾(Online Flow Learning with Rollouts)
Flow-DPO還會(huì)通過在線DPO學(xué)習(xí)和回滾來增強(qiáng)Flow。
對(duì)于每個(gè)輸入問題,Answer LLM會(huì)生成一個(gè)答案片段,一直持續(xù)到產(chǎn)生完整的回答。
然后模型會(huì)在每個(gè)輸出節(jié)點(diǎn)進(jìn)行隨機(jī)展開,比如在生成初始答案片段且Stop LLM判斷為“否”后,F(xiàn)low還會(huì)生成另一個(gè)答案片段,基于之前的部分答案繼續(xù)構(gòu)建。
如果兩個(gè)答案在正確性上不同,就把它們作為答案語言模型的DPO對(duì),引導(dǎo)到正確答案的那個(gè)片段被選為首選響應(yīng)。
顯著提高LLM數(shù)學(xué)推理能力顯著提高為了驗(yàn)證Flow-DPO的性能,研究團(tuán)隊(duì)還設(shè)計(jì)了精密的驗(yàn)證實(shí)驗(yàn),具體設(shè)置如下
數(shù)據(jù)集:實(shí)驗(yàn)使用了MetaMath數(shù)據(jù)集,該數(shù)據(jù)集基于于GSM8K和MATH數(shù)據(jù)集,并通過數(shù)據(jù)增強(qiáng)技術(shù)進(jìn)行了增強(qiáng)。
模型選擇:實(shí)驗(yàn)采用了兩種不同規(guī)模的模型:Llama-3-8B-Instruct和Phi-3-medium-128k-instruct (14B)
Flow學(xué)習(xí)階段:在Flow學(xué)習(xí)階段,團(tuán)隊(duì)使用不同的LoRA適配器對(duì)Answer LLM和Stop LLM進(jìn)行微調(diào),讓它們?cè)贒PO訓(xùn)練中的能力更加專業(yè)。
編譯階段:在編譯階段,收集Flow生成的正確推理軌跡和基線模型生成的正確推理軌跡,進(jìn)行獨(dú)立評(píng)估。
最終結(jié)果顯示,使用了Flow-DPO之后,Llama3模型和Phi3在數(shù)學(xué)推理上的能力都大幅提升了!
一起來看看具體結(jié)果分析:
1.漸進(jìn)驗(yàn)證準(zhǔn)確率(Progressive Validation Accuracy)
漸進(jìn)驗(yàn)證準(zhǔn)確率的準(zhǔn)確定義,是模型在訓(xùn)練前對(duì)輸入訓(xùn)練數(shù)據(jù)的累積準(zhǔn)確度,公式和變量含義如下圖所示:
實(shí)驗(yàn)結(jié)果顯示,在線DPO訓(xùn)練顯著提高了Flow的泛化能力。
對(duì)于Llama-3-8B-Instruc模型,在線DPO學(xué)習(xí)在僅2000個(gè)訓(xùn)練實(shí)例內(nèi)將Flow的性能提高了20%。對(duì)于Phi-3-medium-128k-instruct模型,在線DPO學(xué)習(xí)使其準(zhǔn)確率提高了4個(gè)百分點(diǎn),達(dá)到了83%.
2.推理軌跡質(zhì)量
Flow生成的推理軌跡在質(zhì)量上也優(yōu)于基線和模型生成的正確推理軌跡。
對(duì)于Llama-3-8B-Instruct模型,F(xiàn)low生成的推理軌跡在GSM8K和MATH數(shù)據(jù)集上的微調(diào)準(zhǔn)確率分別提高了6%和7.8%。
對(duì)于Phi-3-medium-128k-instruct模型,F(xiàn)low生成的推理軌跡在兩個(gè)數(shù)據(jù)集上的微調(diào)準(zhǔn)確率分別提高了1.9%和2.1%.
除了剛開始的垂直直線問題,研究團(tuán)隊(duì)還放出了很多真實(shí)的解題回答和對(duì)比,感興趣的朋友可以查看論文的更多相關(guān)信息。
沒想到,不久前還讓LLM非常頭疼的數(shù)學(xué)問題現(xiàn)在也進(jìn)步飛快!
有了優(yōu)秀的邏輯分析能力,我們也能期待LLM未來能解決更多復(fù)雜的問題了。
參考鏈接:[1]https://arxiv.org/abs/2410.22304