展會信息港展會大全

我們目前衡量人工智能進步的方式很糟糕
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-03 19:09:27   瀏覽:121次  

導(dǎo)讀:來源:MIT Technology Review每當(dāng)一個新的人工智能模型發(fā)布時,通常會被宣傳為在一系列基準(zhǔn)測試中表現(xiàn)出色。例如,OpenAI 的 GPT-4o 在 5 月推出時,展示了一系列結(jié)果,表明其性能在多項測試中超過了其他人工智能公司的最新模型。然而,根據(jù)最新研究,這些基準(zhǔn)測試存在設(shè)計不佳、結(jié)果難以復(fù)現(xiàn)以及往往隨意使用指標(biāo)的問題。這一點非常重要,因為人工智能模型在這些基準(zhǔn)測試中的 ......

我們目前衡量人工智能進步的方式很糟糕

來源:MIT Technology Review

每當(dāng)一個新的人工智能模型發(fā)布時,通常會被宣傳為在一系列基準(zhǔn)測試中表現(xiàn)出色。例如,OpenAI 的 GPT-4o 在 5 月推出時,展示了一系列結(jié)果,表明其性能在多項測試中超過了其他人工智能公司的最新模型。

然而,根據(jù)最新研究,這些基準(zhǔn)測試存在設(shè)計不佳、結(jié)果難以復(fù)現(xiàn)以及往往隨意使用指標(biāo)的問題。這一點非常重要,因為人工智能模型在這些基準(zhǔn)測試中的得分會直接影響它們受到的審查和監(jiān)管程度。

“目前的情況就像是一個‘蠻荒之地’,因為我們并沒有好的評估標(biāo)準(zhǔn),”論文作者之一Anka Reuel 說道。她是斯坦福大學(xué)計算機科學(xué)專業(yè)的博士生,同時也是該校人工智能安全中心的成員。

基準(zhǔn)測試本質(zhì)上是一種人工智能需要通過的測試。它可以是多項選擇題格式,比如最流行的“多任務(wù)語言理解基準(zhǔn)”(Massive Multitask Language Understanding benchmark,簡稱 MMLU),也可以是對人工智能執(zhí)行特定任務(wù)能力或回答一系列問題生成文本質(zhì)量的評估。

人工智能公司經(jīng)常將基準(zhǔn)測試的結(jié)果作為新模型成功的證明!斑@些模型的開發(fā)者傾向于專門針對某些基準(zhǔn)測試進行優(yōu)化,”喬治亞理工學(xué)院心理學(xué)教授、語言、智能與思維實驗室(LIT)負責(zé)人 Anna Ivanova 指出。她并未參與斯坦福的這項研究。

基準(zhǔn)測試已經(jīng)成為一些政府制定人工智能監(jiān)管計劃的組成部分。例如,將于 2025 年 8 月生效的歐盟人工智能法案(EU AI Act)將基準(zhǔn)測試作為衡量模型是否具有“系統(tǒng)性風(fēng)險”的工具。如果模型被判定為有系統(tǒng)性風(fēng)險,就會受到更高水平的審查和監(jiān)管。英國人工智能安全研究所(UK AI Safety Institute)在其評估大型語言模型安全性的框架“Inspect”中也引用了基準(zhǔn)測試。

但目前,這些基準(zhǔn)測試可能并不適合作為這樣的工具!叭绻鶞(zhǔn)測試設(shè)計不完善,尤其是針對高風(fēng)險應(yīng)用場景,可能會制造一種虛假的安全感,”Reuel 表示。“看起來模型似乎是安全的,但實際上并非如此!

鑒于基準(zhǔn)測試日益重要,Reuel 和她的同事們希望審視最受歡迎的基準(zhǔn)測試,找出構(gòu)建良好測試的關(guān)鍵,并評估當(dāng)前使用的測試是否足夠可靠。研究人員首先試圖驗證開發(fā)者發(fā)布的基準(zhǔn)測試結(jié)果,但他們常常無法重現(xiàn)這些結(jié)果。測試一個基準(zhǔn)測試通常需要一些說明或代碼來運行,但許多基準(zhǔn)測試的創(chuàng)建者并未公開其測試代碼。在其他情況下,代碼已經(jīng)過時。

基準(zhǔn)測試的創(chuàng)建者通常不會公開其數(shù)據(jù)集中的問題和答案。如果他們公開,公司可能會直接用基準(zhǔn)測試來訓(xùn)練其模型,這就像讓學(xué)生在考試前看到試題和答案。然而,這種做法也導(dǎo)致基準(zhǔn)測試難以評估。

另一個問題是基準(zhǔn)測試經(jīng)常會出現(xiàn)“飽和”的現(xiàn)象,這意味著所有的問題基本上都已經(jīng)被解決了。舉個例子,如果一個測試包含簡單的數(shù)學(xué)問題,第一代人工智能模型得了 20 分,失敗了;第二代模型得了 90 分;第三代模型得了 93 分。外界可能會從這些結(jié)果中得出人工智能進步速度變慢的結(jié)論,但另一種解釋是,這個基準(zhǔn)測試已經(jīng)被攻克,不再適合作為衡量進步的有效工具。它未能體現(xiàn)第二代和第三代模型之間能力的差異。

這項研究的目標(biāo)之一是制定出衡量優(yōu)秀基準(zhǔn)測試的標(biāo)準(zhǔn)。“討論基準(zhǔn)測試的質(zhì)量、我們期望從中得到什么和需要什么,確實是一個重要的問題,”Ivanova 說,“問題在于,目前沒有一個好的統(tǒng)一標(biāo)準(zhǔn)來定義基準(zhǔn)測試。這篇論文嘗試提供一套評估標(biāo)準(zhǔn),這非常有用!

這篇論文還推出了一個名為“BetterBench”的網(wǎng)站,用來排名最流行的人工智能基準(zhǔn)測試。評分因素包括是否有專家參與設(shè)計、測試的能力是否定義明確,以及其他基礎(chǔ)條件,例如基準(zhǔn)測試是否有反饋渠道,是否經(jīng)過同行評審。

在排名中,MMLU 基準(zhǔn)測試得分最低!拔也煌膺@些排名。事實上,我是一些高分論文的作者,但我認為排名較低的基準(zhǔn)測試比它們更好,”CAIS(人工智能安全中心)主任 Dan Hendrycks 說。他也是 MMLU 基準(zhǔn)測試的創(chuàng)建者之一。不過,Hendrycks 仍然認為推動該領(lǐng)域進步的最佳方式是建立更好的基準(zhǔn)測試。

一些人認為這些標(biāo)準(zhǔn)可能忽略了更大的問題!斑@篇論文確實增加了一些有價值的東西,比如實施標(biāo)準(zhǔn)和文檔標(biāo)準(zhǔn),這些都很重要,能使基準(zhǔn)測試更好,”Apollo Research(專注于人工智能評估的研究機構(gòu))CEO Marius Hobbhahn 表示!暗珜ξ襾碚f,最重要的問題是,你測試的是否是正確的東西?即使?jié)M足所有這些標(biāo)準(zhǔn),一個基準(zhǔn)測試如果沒有衡量正確的內(nèi)容,仍然可能是失敗的。”

換句話說,即使一個基準(zhǔn)測試設(shè)計完美,但如果它測試的是模型對莎士比亞十四行詩的分析能力,而實際關(guān)心的是人工智能的黑客能力,那么這個基準(zhǔn)測試也毫無用處。

“你會看到一些基準(zhǔn)測試聲稱衡量道德推理能力,但這一點往往沒有得到很好定義。是否有該領(lǐng)域的專家參與了過程?通常并沒有,”論文的另一位作者、斯坦福大學(xué)人工智能研究員 Amelia Hardy 說。

一些組織正在積極改善這種情況。例如,研究機構(gòu) Epoch AI 設(shè)計了一個新的基準(zhǔn)測試,該測試由 60 位數(shù)學(xué)家參與設(shè)計,并經(jīng)過兩位菲爾茲獎得主驗證,確保其具有挑戰(zhàn)性。菲爾茲獎是數(shù)學(xué)領(lǐng)域的最高獎項。這些專家的參與滿足了 BetterBench 評估中的一項標(biāo)準(zhǔn)。目前,最先進的模型只能回答不到 2% 的問題,這意味著在基準(zhǔn)測試飽和之前還有很長的路要走。

“我們確實嘗試全面展現(xiàn)現(xiàn)代數(shù)學(xué)研究的廣度和深度,”Epoch AI 副主任 Tamay Besiroglu 表示。盡管測試難度很高,Besiroglu 推測,人工智能模型可能只需大約四年時間就能攻克該基準(zhǔn)測試,得分超過 80%。

同時,Hendrycks 領(lǐng)導(dǎo)的 CAIS 正與 Scale AI 合作創(chuàng)建一個新的基準(zhǔn)測試,旨在讓人工智能模型在“人類知識前沿”上接受考驗,這個基準(zhǔn)測試被稱為“人類的最后考試”(Humanity’s Last Exam,HLE)!癏LE 由全球?qū)W者和領(lǐng)域?qū)<覉F隊開發(fā),”Hendrycks 說。“HLE 包含明確的、不可搜索的問題,需要博士水平的理解能力才能解決!比绻阆胴暙I一個問題,可以在這里提交。

盡管關(guān)于應(yīng)該衡量什么仍然存在很多分歧,但許多研究人員一致認為,需要更健全的基準(zhǔn)測試,尤其是在基準(zhǔn)測試為公司設(shè)定方向并成為政府重要工具的情況下。

“基準(zhǔn)測試必須非常優(yōu)秀,”Hardy 說!拔覀冃枰斫狻畠(yōu)秀’的真正含義,而這點目前我們還沒有做到!

原文鏈接:

https://www.technologyreview.com/2024/11/26/1107346/the-way-we-measure-progress-in-ai-is-terrible/

贊助本站

相關(guān)熱詞: 基準(zhǔn)測試 openai reuel

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港