手机在线看片欧美亚洲,婷婷丁香综合网

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 18:40:09 瀏覽：99次

導(dǎo)讀：劃重點(diǎn)01OpenAI推出SimpleQA，一個(gè)專門檢測(cè)大模型回答事實(shí)性問題的準(zhǔn)確性的事實(shí)性基準(zhǔn)測(cè)試，已正式開源。02SimpleQA包含4000道由人類編寫、清晰無歧義的事實(shí)性問題，挑戰(zhàn)性大，連o1-preview和Claude Sonnet 3.5的準(zhǔn)確率都不到50%。03所有問題都經(jīng)過精心設(shè)計(jì)，參考答案經(jīng)過兩位獨(dú)立標(biāo)注員的驗(yàn)證，確保準(zhǔn)確可靠，且具有時(shí)效性。04除此之外，SimpleQA還可以測(cè)量大模型的“校準(zhǔn)”程 ......

劃重點(diǎn)

01OpenAI推出SimpleQA，一個(gè)專門檢測(cè)大模型回答事實(shí)性問題的準(zhǔn)確性的事實(shí)性基準(zhǔn)測(cè)試，已正式開源。

02SimpleQA包含4000道由人類編寫、清晰無歧義的事實(shí)性問題，挑戰(zhàn)性大，連o1-preview和Claude Sonnet 3.5的準(zhǔn)確率都不到50%。

03所有問題都經(jīng)過精心設(shè)計(jì)，參考答案經(jīng)過兩位獨(dú)立標(biāo)注員的驗(yàn)證，確保準(zhǔn)確可靠，且具有時(shí)效性。

04除此之外，SimpleQA還可以測(cè)量大模型的“校準(zhǔn)”程度，即模型“知之為知之，不知為不知”的能力。

05SimpleQA的主要局限性在于其范圍，只能在具有單一可驗(yàn)證答案的簡(jiǎn)短事實(shí)查詢環(huán)境下測(cè)量事實(shí)性。

以上內(nèi)容由大模型生成，僅供參考

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

AI 大模型經(jīng)常“一本正經(jīng)地胡說八道”，這個(gè)問題 OpenAI 也頭疼！現(xiàn)在，他們祭出了新武器 SimpleQA，并已正式開源，這是一個(gè)全新的事實(shí)性基準(zhǔn)測(cè)試，專門用來檢測(cè)大模型回答事實(shí)性問題的準(zhǔn)確性！OpenAI 的研究科學(xué)家 Jason Wei 表示，由于此前一直缺乏一個(gè)好的事實(shí)性基準(zhǔn)測(cè)試，所以他們團(tuán)隊(duì)決定自己動(dòng)手，創(chuàng)建一個(gè)簡(jiǎn)單、可靠、易用的評(píng)估工具，供所有 AI 研究人員使用

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

SimpleQA 究竟有何過人之處？總結(jié)起來有三大特點(diǎn)：設(shè)置簡(jiǎn)單到爆：包含 4000 道由人類編寫、清晰無歧義的事實(shí)性問題，每個(gè)問題都只有一個(gè)無可爭(zhēng)議的正確答案。模型的回答會(huì)被自動(dòng)評(píng)分器評(píng)為“正確”、“錯(cuò)誤”或“未嘗試”

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

挑戰(zhàn)性大，前沿模型也跪了：SimpleQA 對(duì)目前最先進(jìn)的大模型也構(gòu)成了巨大挑戰(zhàn)！連 o1-preview 和 Claude Sonnet 3.5 的準(zhǔn)確率都不到 50%！

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

參考答案準(zhǔn)確度高，經(jīng)得起時(shí)間考驗(yàn)：所有問題都經(jīng)過精心設(shè)計(jì)，參考答案經(jīng)過兩位獨(dú)立標(biāo)注員的驗(yàn)證，確保準(zhǔn)確可靠。而且，這些問題的設(shè)計(jì)也考慮到了時(shí)效性，即使 5 年或 10 年后，SimpleQA 仍然是一個(gè)有用的基準(zhǔn)測(cè)試，相當(dāng)耐用！

SimpleQA是如何構(gòu)建的？OpenAI雇傭了AI訓(xùn)練師從網(wǎng)上收集問題和答案，并制定了嚴(yán)格的標(biāo)準(zhǔn)：答案必須唯一、準(zhǔn)確、不會(huì)隨時(shí)間變化，而且大多數(shù)問題必須能誘導(dǎo)GPT-4o或GPT-3.5產(chǎn)生“幻覺”。為了保證質(zhì)量，還有第二位AI訓(xùn)練師獨(dú)立回答每個(gè)問題，只有兩位訓(xùn)練師答案一致的問題才會(huì)被收錄。最后，還有第三位訓(xùn)練師對(duì)1000個(gè)隨機(jī)問題進(jìn)行驗(yàn)證，最終估算出數(shù)據(jù)集的固有錯(cuò)誤率約為3%

如何用SimpleQA比較大模型？用一個(gè)經(jīng)過prompt的ChatGPT分類器對(duì)模型的答案進(jìn)行評(píng)分，分為“正確”、“錯(cuò)誤”和“未嘗試”三種。目標(biāo)是盡可能多地正確回答問題，同時(shí)最小化錯(cuò)誤答案的數(shù)量。測(cè)試結(jié)果顯示，o1-preview效果最佳。小模型的正確率不如大模型，這可能是因?yàn)樾∧Ｐ偷闹R(shí)儲(chǔ)備較少。o1-preview和o1-mini更傾向于選擇“未嘗試”，這可能是因?yàn)樗鼈兡軌蚶猛评砟芰ψR(shí)別自己不知道答案的情況，而不是胡編亂造

SimpleQA還能干啥？除了評(píng)估事實(shí)性，SimpleQA還可以用來測(cè)量大模型的“校準(zhǔn)”程度，也就是模型“知之為知之，不知為不知”的能力。

置信度與準(zhǔn)確率:通過讓模型給出答案的同時(shí)給出置信度，然后比較置信度和實(shí)際準(zhǔn)確率間的關(guān)系，就能看出模型的校準(zhǔn)程度。結(jié)果表明，模型普遍高估了自己的置信度，還有很大的改進(jìn)空間。o1-preview比o1-mini校準(zhǔn)程度更好，GPT-4比GPT-4-mini校準(zhǔn)程度更好，這與之前的研究結(jié)果一致，即更大的模型校準(zhǔn)程度更好

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

答案頻率與準(zhǔn)確率:另一種測(cè)量校準(zhǔn)的方法是將同一個(gè)問題問模型100次。由于語言模型在重復(fù)嘗試時(shí)可能會(huì)產(chǎn)生不同的答案，因此可以評(píng)估特定答案的出現(xiàn)頻率與其正確性是否相符。更高的頻率通常表明模型對(duì)答案更有信心。o1-preview 在這方面表現(xiàn)最好，其答案的頻率與準(zhǔn)確率基本一致。與通過置信度判斷的校準(zhǔn)結(jié)果類似，o1-preview 比 o1-mini 的校準(zhǔn)程度更好，GPT-4 比 GPT-4-mini 的校準(zhǔn)程度更好

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格

限制SimpleQA 是評(píng)估前沿模型事實(shí)性的一個(gè)簡(jiǎn)單但具有挑戰(zhàn)性的基準(zhǔn)。SimpleQA 的主要局限性在于其范圍--雖然 SimpleQA 非常準(zhǔn)確，但它只能在具有單一可驗(yàn)證答案的簡(jiǎn)短事實(shí)查詢這一受限環(huán)境下測(cè)量事實(shí)性。提供符合事實(shí)的簡(jiǎn)短回答的能力是否與撰寫包含大量事實(shí)的冗長(zhǎng)回答的能力相關(guān)，這仍然是一個(gè)有待研究的問題

開源地址：

https://github.com/openai/simple-evals/

參考：

https://openai.com/index/introducing-simpleqa

SimpleQA Paper:

https://cdn.openai.com/papers/simpleqa.pdf

星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯(cuò)過

用你的贊和在看告訴我～

相關(guān)熱詞： openai o1和claude3.5 claude 模型 simple

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 18:40:09 瀏覽：99次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 18:40:09 瀏覽：99次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI推出SimpleQA：專治大模型“胡說八道”,實(shí)測(cè)o1和Claude3.5都不及格
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-31 18:40:09 瀏覽：99次