隨著大語言模型在眾多領(lǐng)域的廣泛應(yīng)用,基準(zhǔn)測試成為了評估模型質(zhì)量的關(guān)鍵工具。
但是,如果測試結(jié)果受到不當(dāng)影響,例如操縱模型輸出的長度或風(fēng)格來操縱勝率,模型性能的排名可能因此失去可信度,進而直接影響整個行業(yè)的信任和技術(shù)進步。
為促進更加公平和可靠的評價體系,新加坡 Sea AI Lab 和新加坡管理大學(xué)團隊合作,顛覆了傳統(tǒng)意義上針對有意義輸出的對抗性攻擊。
他們提出,將完全無意義的“零模型”(Null Model)作為極端測試也可以利用評估過程中的結(jié)構(gòu)性弱點,欺騙自動基準(zhǔn)測試并獲得高勝率。
更令人擔(dān)憂的是,由于研究假設(shè)這些基準(zhǔn)測試的指令(例如 AlpacaEval 2.0 的 805 個樣本)是私有的且無法被訪問,因此這些作弊輸出可以被轉(zhuǎn)移。
研究人員揭示了現(xiàn)有自動化大模型基準(zhǔn)測試(例如 AlpacaEval 2.0)的脆弱性,并驗證了這些漏洞不僅存在于開源模型,也會影響到廣泛使用的商業(yè)大模型。
該研究有望改進模型評估方法,幫助開發(fā)者改進評估機制,確保評估結(jié)果真實反映模型能力,進而推動行業(yè)更加重視模型的實際性能。
它不僅為開發(fā)更強大的反作弊機制提供了實驗依據(jù),還可能基于此推動行業(yè)制定更嚴(yán)格的基準(zhǔn)測試規(guī)范,提升 AI 技術(shù)的透明度和公平性。
圖丨左至右依次為:鄭曉森、龐天宇、杜超;下排從左至右依次為:劉乾、蔣靜、林敏(來源:該團隊)
日前,相關(guān)論文以《在自動大語言模型基準(zhǔn)測試中作弊:零模型獲得高勝率》(Cheating automatic LLM benchmarks:Null models achieve high win rates)為題發(fā)表在預(yù)印本網(wǎng)站 arXiv[1]。
Sea AI Lab 鄭曉森博士是共同第一作者,高級研究員龐天宇是共同第一作者兼共同通訊作者,新加坡管理大學(xué)蔣靜教授擔(dān)任共同通訊作者,其他論文作者還包括 Sea AI Lab 高級研究員杜超、研究員劉乾和首席研究員林敏。
圖丨相關(guān)論文(來源:arXiv)
需要了解的是,零模型是一種始終輸出固定對抗文本的模型,無論輸入指令是怎樣的,其輸出內(nèi)容均與指令無關(guān)。
在該研究中,零模型被設(shè)計為一種“極簡”作弊形式,用于證明現(xiàn)有基準(zhǔn)測試的評價機制可以被無意義的固定輸出操控,從而取得高勝率。
研究人員在實驗中發(fā)現(xiàn),盡管零模型的輸出完全無意義,但借助某些結(jié)構(gòu)化設(shè)計和優(yōu)化技巧,仍能夠在多個基準(zhǔn)測試中達到頂級勝率。
這表明,現(xiàn)有基準(zhǔn)測試可能存在評估偏差,例如對特定輸出長度或結(jié)構(gòu)的偏好。
如果基準(zhǔn)測試被操控,不僅會誤導(dǎo)模型研發(fā)方向,還可能導(dǎo)致低質(zhì)量模型被誤認(rèn)為高性能,進而威脅實際應(yīng)用的安全性和用戶信任。
為確保可信度,該團隊提出開發(fā)反作弊機制,例如多樣化測試樣本、隨機化評估模板,以及引入人類評估與自動化評估結(jié)合的機制。
據(jù)了解,該研究中最大的挑戰(zhàn)在于,如何設(shè)計出一種能夠在不同基準(zhǔn)測試中普遍適用的作弊方法,同時還需要在不訪問測試樣本的情況下優(yōu)化響應(yīng)。
為解決該問題,研究人員通過人工優(yōu)化和隨機搜索算法的結(jié)合,成功設(shè)計出具有高度轉(zhuǎn)移性的對抗性前綴,從而克服了這一困難。
圖丨該研究中作弊器的勝率和得分,并與 2024 年 10 月 1 日之前記錄的最先進的模型進行比較(來源:arXiv)
他們將零模型與其他先進模型進行了比較,并使用 GPT-4-1106-Preview 作為自動標(biāo)注器進行評估。
結(jié)果顯示,結(jié)合隨機搜索的結(jié)構(gòu)化響應(yīng)(Structured+RS)在所有基準(zhǔn)測試中顯著提高了性能,并實現(xiàn)了最高的勝率和得分。
其中,零模型在 AlpacaEval 2.0 上獲得了 86.5% 的長度控制勝率,在 Arena-Hard-Auto 上達到了 83.0% 的勝率,在 MT-Bench 上的分?jǐn)?shù)為 9.55。
值得關(guān)注的是,該課題組對開源與商業(yè)大模型在零模型場景下的表現(xiàn)進行了對比。
他們發(fā)現(xiàn),商業(yè)大模型(如 GPT-4)雖然更強大,但對該研究所提出的結(jié)構(gòu)化欺騙提示更敏感。而開源大模型(如 Llama-3)因指令跟隨能力稍弱,對該攻擊的敏感性略低。
在接下來的研究階段,該課題組計劃研究更加復(fù)雜的作弊方法,模擬潛在的真實威脅。并且,開發(fā)基于對抗性樣本檢測的自動化反作弊機制。
此外,他們還打算探討跨模態(tài)基準(zhǔn)測試的設(shè)計和評估,以確保評測體系對多模態(tài)任務(wù)的公平性。
參考資料:
1.https://doi.org/10.48550/arXiv.2410.07137
2.https://github.com/sail-sg/Cheating-LLM-Benchmarks
運營/排版:何晨龍