劃重點
01OpenAI推出SimpleQA,一個專門檢測大模型回答事實性問題的準確性的事實性基準測試,已正式開源。
02SimpleQA包含4000道由人類編寫、清晰無歧義的事實性問題,挑戰(zhàn)性大,連o1-preview和Claude Sonnet 3.5的準確率都不到50%。
03所有問題都經(jīng)過精心設計,參考答案經(jīng)過兩位獨立標注員的驗證,確保準確可靠,且具有時效性。
04除此之外,SimpleQA還可以測量大模型的“校準”程度,即模型“知之為知之,不知為不知”的能力。
05SimpleQA的主要局限性在于其范圍,只能在具有單一可驗證答案的簡短事實查詢環(huán)境下測量事實性。
以上內(nèi)容由大模型生成,僅供參考
AI 大模型經(jīng)!耙槐菊(jīng)地胡說八道”,這個問題 OpenAI 也頭疼!現(xiàn)在,他們祭出了新武器 SimpleQA,并已正式開源,這是一個全新的事實性基準測試,專門用來檢測大模型回答事實性問題的準確性!OpenAI 的研究科學家 Jason Wei 表示,由于此前一直缺乏一個好的事實性基準測試,所以他們團隊決定自己動手,創(chuàng)建一個簡單、可靠、易用的評估工具,供所有 AI 研究人員使用
SimpleQA 究竟有何過人之處?總結起來有三大特點:設置簡單到爆:包含 4000 道由人類編寫、清晰無歧義的事實性問題,每個問題都只有一個無可爭議的正確答案。模型的回答會被自動評分器評為“正確”、“錯誤”或“未嘗試”
挑戰(zhàn)性大,前沿模型也跪了:SimpleQA 對目前最先進的大模型也構成了巨大挑戰(zhàn)!連 o1-preview 和 Claude Sonnet 3.5 的準確率都不到 50%!
參考答案準確度高,經(jīng)得起時間考驗:所有問題都經(jīng)過精心設計,參考答案經(jīng)過兩位獨立標注員的驗證,確保準確可靠。而且,這些問題的設計也考慮到了時效性,即使 5 年或 10 年后,SimpleQA 仍然是一個有用的基準測試,相當耐用!
SimpleQA是如何構建的?OpenAI雇傭了AI訓練師從網(wǎng)上收集問題和答案,并制定了嚴格的標準:答案必須唯一、準確、不會隨時間變化,而且大多數(shù)問題必須能誘導GPT-4o或GPT-3.5產(chǎn)生“幻覺”。為了保證質(zhì)量,還有第二位AI訓練師獨立回答每個問題,只有兩位訓練師答案一致的問題才會被收錄。最后,還有第三位訓練師對1000個隨機問題進行驗證,最終估算出數(shù)據(jù)集的固有錯誤率約為3%
如何用SimpleQA比較大模型?用一個經(jīng)過prompt的ChatGPT分類器對模型的答案進行評分,分為“正確”、“錯誤”和“未嘗試”三種。目標是盡可能多地正確回答問題,同時最小化錯誤答案的數(shù)量。測試結果顯示,o1-preview效果最佳。小模型的正確率不如大模型,這可能是因為小模型的知識儲備較少。o1-preview和o1-mini更傾向于選擇“未嘗試”,這可能是因為它們能夠利用推理能力識別自己不知道答案的情況,而不是胡編亂造
SimpleQA還能干啥?除了評估事實性,SimpleQA還可以用來測量大模型的“校準”程度,也就是模型“知之為知之,不知為不知”的能力。
置信度與準確率:通過讓模型給出答案的同時給出置信度,然后比較置信度和實際準確率間的關系,就能看出模型的校準程度。結果表明,模型普遍高估了自己的置信度,還有很大的改進空間。o1-preview比o1-mini校準程度更好,GPT-4比GPT-4-mini校準程度更好,這與之前的研究結果一致,即更大的模型校準程度更好
答案頻率與準確率:另一種測量校準的方法是將同一個問題問模型100次。由于語言模型在重復嘗試時可能會產(chǎn)生不同的答案,因此可以評估特定答案的出現(xiàn)頻率與其正確性是否相符。更高的頻率通常表明模型對答案更有信心。o1-preview 在這方面表現(xiàn)最好,其答案的頻率與準確率基本一致。與通過置信度判斷的校準結果類似,o1-preview 比 o1-mini 的校準程度更好,GPT-4 比 GPT-4-mini 的校準程度更好
限制SimpleQA 是評估前沿模型事實性的一個簡單但具有挑戰(zhàn)性的基準。SimpleQA 的主要局限性在于其范圍--雖然 SimpleQA 非常準確,但它只能在具有單一可驗證答案的簡短事實查詢這一受限環(huán)境下測量事實性。提供符合事實的簡短回答的能力是否與撰寫包含大量事實的冗長回答的能力相關,這仍然是一個有待研究的問題
開源地址:
https://github.com/openai/simple-evals/
參考:
https://openai.com/index/introducing-simpleqa
SimpleQA Paper:
https://cdn.openai.com/papers/simpleqa.pdf
星標AI寒武紀,好內(nèi)容不錯過
用你的贊和在看告訴我~