展會信息港展會大全

對AI的可靠性提出質(zhì)疑,科學(xué)家揭示零模型在大模型基準(zhǔn)測試取得高勝率
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-05 13:25:18   瀏覽:85次  

導(dǎo)讀:隨著大語言模型在眾多領(lǐng)域的廣泛應(yīng)用,基準(zhǔn)測試成為了評估模型質(zhì)量的關(guān)鍵工具。但是,如果測試結(jié)果受到不當(dāng)影響,例如操縱模型輸出的長度或風(fēng)格來操縱勝率,模型性能的排名可能因此失去可信度,進而直接影響整個行業(yè)的信任和技術(shù)進步。為促進更加公平和可靠的評價體系,新加坡 Sea AI Lab 和新加坡管理大學(xué)團隊合作,顛覆了傳統(tǒng)意義上針對有意義輸出的對抗性攻擊。他們提出,將 ......

隨著大語言模型在眾多領(lǐng)域的廣泛應(yīng)用,基準(zhǔn)測試成為了評估模型質(zhì)量的關(guān)鍵工具。

但是,如果測試結(jié)果受到不當(dāng)影響,例如操縱模型輸出的長度或風(fēng)格來操縱勝率,模型性能的排名可能因此失去可信度,進而直接影響整個行業(yè)的信任和技術(shù)進步。

為促進更加公平和可靠的評價體系,新加坡 Sea AI Lab 和新加坡管理大學(xué)團隊合作,顛覆了傳統(tǒng)意義上針對有意義輸出的對抗性攻擊。

他們提出,將完全無意義的“零模型”(Null Model)作為極端測試也可以利用評估過程中的結(jié)構(gòu)性弱點,欺騙自動基準(zhǔn)測試并獲得高勝率。

更令人擔(dān)憂的是,由于研究假設(shè)這些基準(zhǔn)測試的指令(例如 AlpacaEval 2.0 的 805 個樣本)是私有的且無法被訪問,因此這些作弊輸出可以被轉(zhuǎn)移。

研究人員揭示了現(xiàn)有自動化大模型基準(zhǔn)測試(例如 AlpacaEval 2.0)的脆弱性,并驗證了這些漏洞不僅存在于開源模型,也會影響到廣泛使用的商業(yè)大模型。

該研究有望改進模型評估方法,幫助開發(fā)者改進評估機制,確保評估結(jié)果真實反映模型能力,進而推動行業(yè)更加重視模型的實際性能。

它不僅為開發(fā)更強大的反作弊機制提供了實驗依據(jù),還可能基于此推動行業(yè)制定更嚴(yán)格的基準(zhǔn)測試規(guī)范,提升 AI 技術(shù)的透明度和公平性。

對AI的可靠性提出質(zhì)疑,科學(xué)家揭示零模型在大模型基準(zhǔn)測試取得高勝率

圖丨左至右依次為:鄭曉森、龐天宇、杜超;下排從左至右依次為:劉乾、蔣靜、林敏(來源:該團隊)

日前,相關(guān)論文以《在自動大語言模型基準(zhǔn)測試中作弊:零模型獲得高勝率》(Cheating automatic LLM benchmarks:Null models achieve high win rates)為題發(fā)表在預(yù)印本網(wǎng)站 arXiv[1]。

Sea AI Lab 鄭曉森博士是共同第一作者,高級研究員龐天宇是共同第一作者兼共同通訊作者,新加坡管理大學(xué)蔣靜教授擔(dān)任共同通訊作者,其他論文作者還包括 Sea AI Lab 高級研究員杜超、研究員劉乾和首席研究員林敏。

對AI的可靠性提出質(zhì)疑,科學(xué)家揭示零模型在大模型基準(zhǔn)測試取得高勝率

圖丨相關(guān)論文(來源:arXiv)

需要了解的是,零模型是一種始終輸出固定對抗文本的模型,無論輸入指令是怎樣的,其輸出內(nèi)容均與指令無關(guān)。

在該研究中,零模型被設(shè)計為一種“極簡”作弊形式,用于證明現(xiàn)有基準(zhǔn)測試的評價機制可以被無意義的固定輸出操控,從而取得高勝率。

研究人員在實驗中發(fā)現(xiàn),盡管零模型的輸出完全無意義,但借助某些結(jié)構(gòu)化設(shè)計和優(yōu)化技巧,仍能夠在多個基準(zhǔn)測試中達到頂級勝率。

這表明,現(xiàn)有基準(zhǔn)測試可能存在評估偏差,例如對特定輸出長度或結(jié)構(gòu)的偏好。

如果基準(zhǔn)測試被操控,不僅會誤導(dǎo)模型研發(fā)方向,還可能導(dǎo)致低質(zhì)量模型被誤認(rèn)為高性能,進而威脅實際應(yīng)用的安全性和用戶信任。

為確保可信度,該團隊提出開發(fā)反作弊機制,例如多樣化測試樣本、隨機化評估模板,以及引入人類評估與自動化評估結(jié)合的機制。

據(jù)了解,該研究中最大的挑戰(zhàn)在于,如何設(shè)計出一種能夠在不同基準(zhǔn)測試中普遍適用的作弊方法,同時還需要在不訪問測試樣本的情況下優(yōu)化響應(yīng)。

為解決該問題,研究人員通過人工優(yōu)化和隨機搜索算法的結(jié)合,成功設(shè)計出具有高度轉(zhuǎn)移性的對抗性前綴,從而克服了這一困難。

對AI的可靠性提出質(zhì)疑,科學(xué)家揭示零模型在大模型基準(zhǔn)測試取得高勝率

圖丨該研究中作弊器的勝率和得分,并與 2024 年 10 月 1 日之前記錄的最先進的模型進行比較(來源:arXiv)

他們將零模型與其他先進模型進行了比較,并使用 GPT-4-1106-Preview 作為自動標(biāo)注器進行評估。

結(jié)果顯示,結(jié)合隨機搜索的結(jié)構(gòu)化響應(yīng)(Structured+RS)在所有基準(zhǔn)測試中顯著提高了性能,并實現(xiàn)了最高的勝率和得分。

其中,零模型在 AlpacaEval 2.0 上獲得了 86.5% 的長度控制勝率,在 Arena-Hard-Auto 上達到了 83.0% 的勝率,在 MT-Bench 上的分?jǐn)?shù)為 9.55。

值得關(guān)注的是,該課題組對開源與商業(yè)大模型在零模型場景下的表現(xiàn)進行了對比。

他們發(fā)現(xiàn),商業(yè)大模型(如 GPT-4)雖然更強大,但對該研究所提出的結(jié)構(gòu)化欺騙提示更敏感。而開源大模型(如 Llama-3)因指令跟隨能力稍弱,對該攻擊的敏感性略低。

在接下來的研究階段,該課題組計劃研究更加復(fù)雜的作弊方法,模擬潛在的真實威脅。并且,開發(fā)基于對抗性樣本檢測的自動化反作弊機制。

此外,他們還打算探討跨模態(tài)基準(zhǔn)測試的設(shè)計和評估,以確保評測體系對多模態(tài)任務(wù)的公平性。

參考資料:

1.https://doi.org/10.48550/arXiv.2410.07137

2.https://github.com/sail-sg/Cheating-LLM-Benchmarks

運營/排版:何晨龍

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港