展會信息港展會大全

反向和錯位圖靈測試:GPT-4比人類更「人性化」!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-09 19:00:17   瀏覽:2957次  

導(dǎo)讀:編輯:lumina 【新智元導(dǎo)讀】 加州大學(xué)的研究人員通過反向和錯位圖靈測試,探討了人類和AI在區(qū)分對話者是人類還是AI時的能力。但結(jié)果表明,在不進行主動互動時,無論是人類還是當前的大語言模型都難以區(qū)分二者。由AI生成的內(nèi)容漸漸充斥了互聯(lián)網(wǎng)。 現(xiàn)在的人們...

編輯:lumina【新智元導(dǎo)讀】加州大學(xué)的研究人員通過反向和錯位圖靈測試,探討了人類和AI在區(qū)分對話者是人類還是AI時的能力。但結(jié)果表明,在不進行主動互動時,無論是人類還是當前的大語言模型都難以區(qū)分二者。由AI生成的內(nèi)容漸漸充斥了互聯(lián)網(wǎng)。

現(xiàn)在的人們比起直接與AI進行對話,更多的是在閱讀和瀏覽AI生成的文本。

而經(jīng)典的圖靈測試賦予了評判者一個關(guān)鍵優(yōu)勢:他們可以實時調(diào)整問題,以對參與者進行對抗性測試。

但這在被動消費AI生成文本時并不總是存在。

因此,來自加州大學(xué)圣地亞哥分校的研究者提出,我們需要在更接近現(xiàn)實的環(huán)境中,開展圖靈測試的變體,以確定人們在現(xiàn)實場景中區(qū)分人類和AI的效果。

并進一步理清以下問題:

人類是否能夠僅通過觀察對話來可靠地區(qū)分人類與AI?

LLM是否可以作為AI檢測器,不僅適用于靜態(tài)文本(如文章和段落),還適用于動態(tài)對話?

錯位圖靈測試會提高還是降低準確性?

反向圖靈測試能否揭示人工系統(tǒng)中的樸素心理學(xué)?

以及在現(xiàn)實世界的對話環(huán)境中,哪些方法最適合進行AI檢測?

這項研究將通過兩種圖靈測試的變體「反向圖靈測試」(inverted Turing test)和「錯位圖靈測試」(displaced Turing test),來測量人類和大語言模型在這種區(qū)分上的表現(xiàn)。

其中,GPT-3.5、GPT-4,以及作為評判者的人類基于圖靈測試的對話記錄判斷參與者是人類還是AI。

經(jīng)典圖靈測試與其系列變體經(jīng)典圖靈測試

在經(jīng)典的圖靈測試中,一位人類評判者與兩位參與者進行純文本對話,其中一位是人類,另一位是機器。

如果評判者無法準確區(qū)分人類和計算機,那么計算機就通過了測試,可被視為智能體。

自圖靈的原始論文發(fā)表以來,圖靈測試掀起了激烈的辯論,對現(xiàn)代智能概念的理解和構(gòu)建起到了關(guān)鍵作用。

但另一方面,它作為智能測試的有效性或充分性也受到了廣泛質(zhì)疑。

可不論其作為智能測試的有效性如何,圖靈測試仍然是評估人類和AI寫作相似性的重要手段,也是研究AI欺騙行為的有力工具。

多年來,已有多個通過圖靈測試的嘗試,包括1990年至2020年間的Loebner獎競賽,但沒有任何系統(tǒng)通過該測試。

「HumanorNot」是一個大規(guī)模的社會圖靈測試實驗,發(fā)現(xiàn)評判者的準確率為60%;2024年的一項研究報告了第一個通過率與隨機水平(54%)無統(tǒng)計學(xué)差異但仍低于人類標準(67%)的系統(tǒng)。

圖靈測試存在多種變體,每種變體都為理論和實踐提供了不同的視角。

反向圖靈測試(Inverted TuringTest)

反向圖靈測試,即讓AI系統(tǒng)擔任評判者的角色。

1996年,Watt提出了反向測試作為一種「樸素心理學(xué)」的測量方法,即人類天生具有識別與自身相似的智能并將其歸因于其他心智的傾向。

如果AI系統(tǒng)「無法區(qū)分兩個真人,或無法區(qū)分一位人類和一臺通過正常圖靈測試的機器,但能夠區(qū)分一位人類和一臺在有真人觀察者的正常圖靈測試中可以分辨出來的機器」,則該測試通過。

Watt認為,通過讓AI充當觀察者角色,并將其對不同參與者的判斷與人類的準確性進行比較,可以揭示AI是否具有人類類似的樸素心理學(xué)。

錯位圖靈測試(Displaced TuringTest)

錯位圖靈測試,即讓評判者閱讀由另一位人類或AI評判者先前進行的互動圖靈測試的對話記錄,從而評估AI的表現(xiàn)。

新的評判者被描述為「錯位」的,因為他們「置身事外」,未曾參與和AI的互動。

這是一種新的靜態(tài)圖靈測試,因為判斷基于預(yù)先存在且不變的、由人類或AI生成的內(nèi)容。

其次,在傳統(tǒng)圖靈測試中,互動評判者可以提出動態(tài)、靈活且對抗性的問題,而靜態(tài)圖靈測試中的評判者只能基于對話內(nèi)容進行判斷,無法通過互動來深入探討最有效的問詢方向。

靜態(tài)測試在評估模型能力時有一定局限性,但它們很可能反映了現(xiàn)實世界中的常見情況,因為許多互動是由更廣泛的觀眾閱讀的,而不僅僅是直接的對話當事人。

統(tǒng)計方法檢測AI生成內(nèi)容

目前存在多種統(tǒng)計方法來檢測AI生成的內(nèi)容。這些方法主要基于大語言模型(LLM)通過對詞語的概率分布進行采樣生成內(nèi)容的原理:

這可能會留下特定的概率特征,例如LLM生成的內(nèi)容在統(tǒng)計概率上比人類生成的內(nèi)容更可能出現(xiàn)。

2023年,Mitchell等人開發(fā)了一種相關(guān)指標「曲率」,它通過使用掩碼語言模型生成的小擾動來衡量一段文本的局部最優(yōu)性,LLM生成的內(nèi)容相對于附近的擾動更可能是最優(yōu)的。

2024年,Mireshghallah等人發(fā)現(xiàn),較小的LLM往往是更好的檢測模型,其中具有125m參數(shù)的OPT模型在檢測AI生成內(nèi)容時表現(xiàn)最佳,在檢測GPT-4內(nèi)容時達到了90%的準確率。

基于這些方法和其他文本分類計算方法,已經(jīng)開發(fā)了各種商業(yè)工具。研究在不同環(huán)境中評估了這些方法的有效性,結(jié)果不一:雖然在某些領(lǐng)域中準確性較高,但模型往往不可靠,可能會產(chǎn)生誤報。

反向圖靈測試在反向圖靈測試中,GPT-3.5和GPT-4扮演裁定者的角色,評估先前圖靈測試的文字記錄以判斷參與者是人類還是AI。

研究設(shè)定了五個假設(shè):

1.GPT-4的準確率是否顯著高于或低于人類的準確率。

2.GPT-4是否也難以準確識別參與者。

3.模型是否更傾向于將真人類判斷為人類,而非將最佳的GPT-4參與者判斷為人類。

4.GPT-4作為裁定者在較長的文字記錄中是否會表現(xiàn)出更高的準確率。

5.GPT-4作為裁定者的準確率是否高于GPT-3.5。

探討了這兩個模型的識別準確性,以及對話長度和模型質(zhì)量對判斷的影響、以及大語言模型的質(zhì)量在判斷文字記錄中的作用。

方法

使用Jones和Bergen在2023年的研究中超過6000次圖靈測試的文字記錄。

其中,Jones和Bergen研究中的AI參與者基于以下三個模型:GPT-3.5、GPT-4和ELIZA。

并且,樣本需要平衡人類和AI參與者的數(shù)量,以及表現(xiàn)最佳的GPT-4參與者的游戲比例與整個數(shù)據(jù)集中的比例相同。并確保表現(xiàn)最佳模型的人類和人工智能判決分布相同。

模型需判斷參與者的類型,并指出其判決的信心程度,同時提供判斷依據(jù)。

結(jié)果

GPT-4作為裁定者的準確性顯著低于互動人類裁定者,尤其是在判斷表現(xiàn)最佳的AI參與者時,準確率低于隨機水平。

文字記錄長度和模型質(zhì)量(GPT-4 vs GPT-3.5)對準確性沒有顯著影響。

討論

在反向圖靈測試中,兩個AI系統(tǒng)作為裁定者的準確性均低于互動人類評判者,尤其是在面對表現(xiàn)最佳的AI參與者時,準確性更低。

AI參與者的通過率高于人類參與者,這意味著AI裁定者更容易將AI參與者誤判為人類,同時將人類參與者誤判為AI。

這些結(jié)果表明,當前的大語言模型在區(qū)分人類和AI生成的內(nèi)容方面表現(xiàn)不佳即使它們正在評估由相同大語言模型生成的內(nèi)容。

對此結(jié)果的一個可能解釋是,這些系統(tǒng)的輸出受其對人類訓(xùn)練數(shù)據(jù)的表征所驅(qū)動。

因此,模型可能缺乏能夠區(qū)分自身輸出與其模仿的訓(xùn)練數(shù)據(jù)之間差異的細致或上下文敏感的表征。

當前的大語言模型不適合作為檢測對話中AI貢獻的有效工具。

錯位圖靈測試錯位圖靈測試評估人們在無法直接與AI互動環(huán)境中,如閱讀社交媒體對話來識別AI的準確性。

在這項測試中,參與者作為人類裁定者,根據(jù)文字記錄樣本判斷參與者是否為人類或AI。

研究設(shè)定了與反向圖靈測試類似的一組問題。

方法

將相同的500份文字記錄樣本展示給加州大學(xué)圣迭戈分校的學(xué)生(共109人,其中84名女性,年齡范圍為19至31歲),每位參與者隨機接收到50份文字記錄的子集。

每份記錄平均由10名參與者進行判斷。

參與者需要為每份記錄指出他們的信心水平和判斷依據(jù)。并通過使用R語言中的lmertest包擬合線性混合效應(yīng)模型。

結(jié)果

錯位人類裁定者的識別準確性低于互動的人類裁定者,尤其是在識別基于GPT的AI模型時。

反向和錯位圖靈測試:GPT-4比人類更「人性化」!

長度較短的文字記錄似乎對裁定者更有幫助。

討論

錯位環(huán)境增加了識別大語言模型AI的挑戰(zhàn),阻止了參與者進行對抗性詢問或觀察參與者的響應(yīng)時間,可能導(dǎo)致他們做出更快的決策或投入較少的精力。

在現(xiàn)實場景中,當人類裁定者無法直接審問文本內(nèi)容的來源時,這些結(jié)果表明人們可能難以可靠地區(qū)分人類和AI生成的內(nèi)容。

與反向圖靈測試類似,表現(xiàn)最佳的GPT-4參與者的通過率高于人類參與者。

這表明,在閱讀人類與AI模型之間的在線對話時,AI系統(tǒng)可能更容易被判斷為人類,而真正的人類反而不易被識別。

另外,文字記錄長度對準確性的負面影響似乎違反直覺:為什么較少的信息反而對裁定者更有幫助?

事實上,這種反,F(xiàn)象可能是由于次要混雜因素導(dǎo)致的,特別是在文字記錄長度的確定方式上。

在原始研究中,裁定者可以選擇提前結(jié)束對話,當他們確信自己在與人類或AI交流時,可能會這么做。

因此,較短的文字記錄更可能包含對互動裁定者特別有幫助的信息,也可能同樣幫助了錯位裁定者。

語境分析

錯位人類實驗與反向?qū)嶒炛g的一個關(guān)鍵區(qū)別在于,人類裁定者是連續(xù)完成 50 份文字記錄的,而大語言模型裁定者則是逐個呈現(xiàn)每份記錄。

研究發(fā)現(xiàn),連續(xù)處理文本記錄的方式可能幫助人類裁定者更好地掌握文本記錄的整體趨勢,并識別重復(fù)出現(xiàn)的AI參與者的特征,從而逐漸提高判斷的準確性。

為了測試是否連續(xù)呈現(xiàn)記錄也能提高AI裁定者的表現(xiàn),研究人員進行了類似的實驗,連續(xù)向GPT-4展示文本記錄。

結(jié)果顯示,通過這種方式,GPT-4的準確率從36.4%提高到58%,接近人類裁定者的表現(xiàn)。

此外,當詢問GPT-4其判斷策略時,GPT-4表示其策略由單純檢查語法逐漸轉(zhuǎn)向評估對話的一致性、幽默和情感差異、長期上下文關(guān)聯(lián)等復(fù)雜因素,顯示了其在識別真實人類對話時的進步。

這表明連續(xù)的文本呈現(xiàn)可以增強裁定者,無論是人還是AI,對文本特征的理解和識別能力。

為了評估不同裁定者在評判文本記錄是由人還是AI生成時依賴的決策理由,研究使用了GPT-4o模型,根據(jù)一種預(yù)設(shè)的分類方案來分析裁定者的判斷理由。

這個方案由Jones和Bergen提供,旨在捕捉和分類裁定者為其決策提供的具體理由。

研究結(jié)果顯示,無論是AI裁定者還是人類裁定者,他們引用的理由類型有很大的相似性。

反向和錯位圖靈測試:GPT-4比人類更「人性化」!

在判斷對話來自AI時,最常見的理由是對話內(nèi)容顯得「不自然」。

AI裁定者在判斷時,更多地關(guān)注對話者是否展示出人類特有的社會情感特質(zhì),如個性的缺失。而人類裁定者的理由分布則相對更均衡,涵蓋多個不同的類別。

當判斷對話來自人類時,三種裁定者通常都會指出對話中的合理回應(yīng)和非正式語氣,同時也會關(guān)注社會情感因素和語言風格。

這表明,不論裁定者是人還是AI,在進行決策時,他們都傾向于強調(diào)對話中的相似特征,這些特征幫助他們區(qū)分人類和AI生成的內(nèi)容。

統(tǒng)計人工智能檢測方法

為了研究利用統(tǒng)計方法在圖靈測試中檢測AI生成的內(nèi)容的有效性,研究使用了Mireshghallah等人提出的兩種主要方法:一種是測量文字記錄中的平均對數(shù)似然值,另一種是測量曲率。

對數(shù)似然值是指在給定前置詞的情況下,計算文本內(nèi)容生成的可能性;曲率則是通過比較文本與其相似內(nèi)容的概率差異來進行評估。

使用OPT-125m模型進行實驗,結(jié)果表明,這兩種方法在區(qū)分AI和人類生成的文本方面有不同的效果。

對數(shù)似然方法得出的整體準確率為62%,而曲率方法的準確率更高,達到了69%。

反向和錯位圖靈測試:GPT-4比人類更「人性化」!

曲率方法尤其有效,因為它能更好地區(qū)分人類和AI生成的文本,尤其是在處理最新和最高級的AI模型(如GPT-4)時。

這些發(fā)現(xiàn)表明,盡管這些統(tǒng)計方法提供了一種區(qū)分人類和AI文本的工具,但在處理最先進的AI模型時,它們的可靠性仍有待提高。

未來的研究需要探討更多的統(tǒng)計方法,以提高在這種環(huán)境下的檢測準確性。

總結(jié)樸素心理學(xué)

Watt對通過反向圖靈測試的標準是機器的表現(xiàn)應(yīng)與人類評估者相當。

如果人類評估者能夠區(qū)分人類和特定的AI,那么AI裁定者也應(yīng)能夠做到。如果人類無法區(qū)分,那么機器也應(yīng)該失敗。

研究中發(fā)現(xiàn),GPT-4的判斷準確性與錯位人類裁定者相當,兩者的準確率都在58%左右。

通過上下文學(xué)習(xí)(ICL),GPT-4的表現(xiàn)甚至提高到與人類幾乎一致的水平。

然而,盡管準確率相似,GPT-4與人類裁定者的錯誤模式卻不同,這表明兩者在思維和判斷過程中存在根本差異。

這些發(fā)現(xiàn)支持了Watt的理論,即AI的思維模型與人類裁定者的模型存在系統(tǒng)性的差異。

未來的研究可以通過增加互動性和系統(tǒng)性地修改文本記錄的特征來進一步探討人類和AI在思維方式上的不同。

這些研究有助于更好地理解AI在模擬人類心理狀態(tài)方面的潛力和局限。

實際檢測

實際檢測指的是在日常生活中常見的環(huán)境,如社交媒體和論壇,評估人和AI之間對話的真實性。

這類環(huán)境中的圖靈測試通常是的,因為觀察者無法直接與對話者互動來驗證他們是否為AI。

研究發(fā)現(xiàn),在這種環(huán)境下,無論是GPT-4還是人類裁定者,在區(qū)分AI和人類時都表現(xiàn)不佳,尤其是面對表現(xiàn)良好的AI時,這些AI往往能夠比真正的人類更成功地偽裝自己。

統(tǒng)計AI檢測方法,如分析話語曲率,顯示出在區(qū)分人類和AI生成消息時的潛力,ROC分析顯示這種方法的準確率可以達到69%。

然而,實際應(yīng)用中的誤報問題可能會對真實用戶產(chǎn)生不利影響,表明這種方法在實際場景中的限制。

研究還發(fā)現(xiàn),經(jīng)驗的積累可能提高裁定者的判斷準確性,錯位人類裁定者和GPT-4在多次判斷后都表現(xiàn)出改進的趨勢。

未來的研究可以通過給予參與者反饋來探索學(xué)習(xí)效果,或者進一步探討不同裁定工具之間的相互影響。這些發(fā)現(xiàn)強調(diào)了在實際環(huán)境中AI檢測的復(fù)雜性和挑戰(zhàn)。

結(jié)論

在反向圖靈測試中,GPT-3.5和GPT-4作為AI裁定者,以及錯位圖靈測試中的人類裁定者都參與了評判對話中某個參與者是否為人類。

但結(jié)果顯示,無論是AI裁定者還是錯位人類裁定者,在被動閱讀的情境下,他們的準確性都低于直接互動的原始圖靈測試中的裁定者。

這表明,在不進行主動互動時,無論是人類還是當前的大語言模型都難以區(qū)分二者。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港