工具學(xué)習(xí)將大模型與外部工具相結(jié)合,顯著增強(qiáng)了大模型解決復(fù)雜任務(wù)的能力。通過(guò)利用外部工具,大模型克服過(guò)時(shí)的預(yù)訓(xùn)練數(shù)據(jù)的限制,使我們能夠訪(fǎng)問(wèn)最新信息,與動(dòng)態(tài)環(huán)境交互,并采取超出其能力范圍的行動(dòng)。工具文檔作為關(guān)鍵信息,為大模型提供工具功能及其應(yīng)用的信息,幫助大模型更高效地使用工具,成為連接大模型與外部工具的橋梁。
然而,現(xiàn)有工具主要是人工設(shè)計(jì)出來(lái)為人類(lèi)服務(wù)的,并不是明確針對(duì)大模型的使用進(jìn)行定制,工具文檔也并不符合大模型的理解。實(shí)際上專(zhuān)門(mén)為大模型編寫(xiě)符合其特定要求的工具文檔是一項(xiàng)具有挑戰(zhàn)性的工作。
首先,原始的人工編寫(xiě)的工具文檔通常是根據(jù)人類(lèi)直覺(jué)創(chuàng)建的,存在不完整、冗余、不準(zhǔn)確等問(wèn)題,因?yàn)樗饕獮榱擞先祟?lèi)的理解并且通常缺乏語(yǔ)言模型理解所需的精度,阻礙了大模型有效使用工具。
其次,人工修改這些文檔,很難完全涵蓋工具使用的所有方面,因?yàn)楸鎰e工具可以解決的問(wèn)題和參數(shù)范圍通常需要大量的實(shí)踐經(jīng)驗(yàn)。通過(guò)手動(dòng)完善來(lái)解決這些問(wèn)題既耗時(shí)又費(fèi)力且無(wú)法有效地?cái)U(kuò)展到大量工具。
此外,工具開(kāi)發(fā)的動(dòng)態(tài)特性進(jìn)一步加劇了這個(gè)問(wèn)題,因?yàn)楣ぞ叩墓δ芙?jīng)常更新、棄用或擴(kuò)展。在工具文檔中維護(hù)此類(lèi)不斷發(fā)展的功能的最新且準(zhǔn)確的表示成為一項(xiàng)艱巨的任務(wù)。
而中國(guó)人民大學(xué)高瓴人工智能學(xué)院研究團(tuán)隊(duì)所提出的方法,通過(guò)大模型自我驅(qū)動(dòng)的工具交互來(lái)完善工具文檔,不需要人工參與,因此可以擴(kuò)展到大規(guī)模的工具文檔編寫(xiě)更新中,批量構(gòu)建符合大模型特定要求的工具文檔。
相關(guān)論文《從探索到掌握:使大模型通過(guò)自我驅(qū)動(dòng)的交互掌握工具》(From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions)已經(jīng)被ICLR 2025接收 [1]。
研究團(tuán)隊(duì)表示,人類(lèi)通過(guò)重復(fù)的交互和實(shí)踐經(jīng)驗(yàn)來(lái)熟練地使用工具,盡管這些工具的功能不斷發(fā)展,但仍能夠保持對(duì)這些工具的最新理解。借鑒人類(lèi)掌握工具的方式,他和所在團(tuán)隊(duì)在一篇論文中提出了一種新穎的框架DRAFT。其能根據(jù)大模型與工具交互的結(jié)果和反饋,自動(dòng)調(diào)整和優(yōu)化工具文檔,旨在構(gòu)建符合大模型理解的工具文檔。
更具體地說(shuō),DRAFT 實(shí)現(xiàn)了一種迭代試錯(cuò)方法逐步改進(jìn)工具文檔。DRAFT 協(xié)調(diào)了三個(gè)動(dòng)態(tài)關(guān)聯(lián)的階段:經(jīng)驗(yàn)收集、從經(jīng)驗(yàn)中學(xué)習(xí)和工具文檔重寫(xiě),這三個(gè)階段共同促進(jìn)了工具文檔的迭代改進(jìn)過(guò)程。
首先,在經(jīng)驗(yàn)收集階段,通過(guò)設(shè)計(jì)的探索器模擬潛在的工具應(yīng)用場(chǎng)景,創(chuàng)建探索實(shí)例并實(shí)際使用工具以收集工具使用經(jīng)驗(yàn)。這種方法類(lèi)似于人類(lèi)在無(wú)法理解說(shuō)明書(shū)時(shí)探索新工具的使用方式?紤]到工具的使用通常涉及復(fù)雜的參數(shù)范圍、組合和潛在的錯(cuò)誤類(lèi)型,確保探索階段的多樣性以涵蓋廣泛的可能場(chǎng)景至關(guān)重要。因此他們?cè)O(shè)計(jì)了一種促進(jìn)多樣性的探索策略:包括相似度約束和自我反思。在探索新實(shí)例時(shí)如果和已探索過(guò)的實(shí)例相似度高于閾值,探索器將進(jìn)行自我反思分析相似度高的原因并探索該工具的不同方面。
接著,分析器將結(jié)合探索器的發(fā)現(xiàn)和使用反饋,從這些經(jīng)驗(yàn)中學(xué)習(xí),對(duì)現(xiàn)有文檔進(jìn)行分析,判斷工具文檔是否全面、簡(jiǎn)潔、不包含無(wú)關(guān)信息以及文檔描述是否和工具返回結(jié)果相一致,從而為修改器提出文檔修改建議。
最后,修改器在匯集前兩個(gè)階段的經(jīng)驗(yàn)和修改建議的基礎(chǔ)上,專(zhuān)注于優(yōu)化工具文檔,以提高其清晰度、準(zhǔn)確性和可用性,確保其符合大模型的理解能力。同時(shí)該階段還為下一輪的經(jīng)驗(yàn)收集階段提供未來(lái)探索方向的建議。此外,鑒于不同工具在復(fù)雜性和大模型的理解難度上存在差異,他們引入了一種工具自適應(yīng)終止機(jī)制,以自適應(yīng)地決定何時(shí)停止對(duì)每個(gè)工具的修改。類(lèi)似于不同的菜譜需要不同的專(zhuān)業(yè)水平,有些工具文檔優(yōu)化速度可能會(huì)快于其他工具。當(dāng)連續(xù)兩版文檔之間的改動(dòng)很小,表明重寫(xiě)器已充分使文檔與大模型的理解相符時(shí),他們認(rèn)為迭代過(guò)程已收斂。通過(guò)這種自適應(yīng)停止機(jī)制,可以節(jié)省計(jì)算資源和時(shí)間其次可以防止不必要的修改帶來(lái)的過(guò)度擬合,通過(guò)同時(shí)使用BLEU分?jǐn)?shù)和語(yǔ)義相似度,確保了同時(shí)對(duì)結(jié)構(gòu)和語(yǔ)義進(jìn)行評(píng)估,最終生成為大模型定制的高質(zhì)量文檔。
研究團(tuán)隊(duì)在RestBench和ToolBench這兩個(gè)廣泛使用的工具學(xué)習(xí)Benchmark上對(duì)DRAFT進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明所有大模型在使用DRAFT修改過(guò)后的工具文檔時(shí)均能更好的利用工具,表現(xiàn)出強(qiáng)大的跨模型泛化能力。同時(shí)在ToolBench數(shù)據(jù)集上,使用DRAFT增強(qiáng)的GPT-4o-mini的性能甚至超過(guò)了不使用DRAFT的GPT-4o,這些結(jié)果都證明了DRAFT的有效性。
同時(shí),由于現(xiàn)實(shí)世界中通常包含大量的工具,無(wú)法將所有工具都提供給大模型,需要先經(jīng)過(guò)工具檢索從大量工具中篩選出有助于解決用戶(hù)當(dāng)前問(wèn)題的工具,該團(tuán)隊(duì)此前提出過(guò)一種有效的工具檢索策略,極大提高了工具檢索的有效性[2],該團(tuán)隊(duì)還發(fā)現(xiàn)了修改過(guò)后的工具文檔不僅能幫助大模型使用工具,還能提高工具檢索的性能。
此外,通過(guò)人工評(píng)估的方式還驗(yàn)證了修改后的工具文檔不僅有利于大模型的理解,也能有助于人類(lèi)對(duì)工具文檔的理解。再次驗(yàn)證了方法的有效性。
該團(tuán)隊(duì)還編寫(xiě)過(guò)一篇關(guān)于工具學(xué)習(xí)的全面綜述論文,詳細(xì)介紹了將大模型和外部工具相結(jié)合的好處以及如何增強(qiáng)大模型的工具使用能力,對(duì)大模型工具學(xué)習(xí)感興趣的讀者可以通過(guò)該綜述了解更多信息[3]。
[1]https://arxiv.org/abs/2410.08197
[2]https://dl.acm.org/doi/abs/10.1145/3627673.3679847
[3]https://arxiv.org/abs/2405.17935