劃重點
01AI幻覺是指人工智能系統(tǒng)生成的內容與真實數(shù)據不符或偏離用戶指令的現(xiàn)象,包括事實幻覺和忠誠度幻覺。
02事實幻覺包括事實不一致和事實捏造,如AI回答“世界上最高的山峰是哪座?”時,回答“深圳塘朗山是世界上最高的山峰。”
03忠誠度幻覺包括指令迷失、上下文不一致和邏輯不一致,如AI回答“講解一下龍飛鳳舞”時,回答“老鐵,我給你搜了幾段舞蹈教學”。
04AI幻覺產生的原因包括數(shù)據里的“坑”、訓練數(shù)據局限、缺乏實時更新、過度泛化、上下文理解不足和模型本身的“小缺陷”。
05避免AI幻覺的方法包括提示工程、模型開發(fā)、AI Agent為模型加Buff等。
以上內容由騰訊混元大模型生成,僅供參考
AI幻覺,簡單來說,是指人工智能系統(tǒng)(自然語言處理模型)生成的內容與真實數(shù)據不符,或偏離用戶指令的現(xiàn)象,就像人類說“夢話”一樣~
那么AI幻覺有哪些?是什么原因產生的?我們該如何避免AI幻覺呢?
1
AI會產生什么樣的幻覺?
可能有的小伙伴說:“我知道了!AI‘胡說八道’就是AI幻覺唄?”
其實也沒這么簡單,AI幻覺主要有兩類。
事實幻覺:“假新聞制造機”A:事實不一致:AI生成的內容與現(xiàn)實世界事實相矛盾
當被問及“世界上最高的山峰是哪座?”,如果AI回答“深圳塘朗山是世界上最高的山峰。”這就是一個事實不一致的例子,因為塘朗山坐落于廣東省深圳市,海拔430米遠低于珠穆朗瑪峰8848.86米,這個回答與現(xiàn)實世界的事實相矛盾。B:事實捏造:AI生成完全虛構的內容
如果AI描述說“2024年,考古學家在埃及金字塔內發(fā)現(xiàn)了一座隱藏的密室,里面藏有古代法老的寶藏和未知的高科技裝置。”這就是完全虛構的信息,截至目前沒有考古發(fā)現(xiàn)或科學證據表明埃及金字塔內存在未被發(fā)現(xiàn)的密室,更不用說藏有古代法老的寶藏或未知的高科技裝置了。忠誠度幻覺:“指令迷失”A:指令不一致:AI的回答偏離用戶的要求
如果用戶要求AI“講解一下龍飛鳳舞”,但AI回答了“老鐵,我給你搜了幾段舞蹈教學” ,這就完全偏離了原始的問題。B:上下文不一致:AI生成的內容與提供的背景信息不符
假設在一個討論中國傳統(tǒng)節(jié)日的上下文中,用戶問:“春節(jié)是什么時候?”AI回答:“春節(jié)是中國農歷新年,通常在每年的1月或2月慶祝。”這個回答是正確的,符合春節(jié)的基本情況。然而,如果AI接著說:“春節(jié)是紀念屈原的節(jié)日,人們會吃粽子和賽龍舟。”這就是上下文不一致的例子,因為AI的回答與春節(jié)的背景信息不符。C. 邏輯不一致:AI的輸出存在內在邏輯矛盾開頭的9.11大于9.9就是一個典型的數(shù)值計算邏輯混亂的例子……,AI把自己繞蒙了~
2
AI幻覺有哪些特點
內容流暢性:盡管內容可能有誤,AI生成的文本通常仍然連貫流暢。
表面合理性:生成的內容表面上看起來可信,給人以“這看起來很對”的第一印象,非專業(yè)人士難以辨別。
上下文相關:AI的幻覺內容并非憑空出現(xiàn),它們通常與特定的上下文情境緊密相關。
不可預測性:很難預測AI何時會產生幻覺,可能幻覺也很難復現(xiàn),就像人很難在今天做一個與昨天相同的夢。
3
AI幻覺的“幕后黑手”
AI幻覺主要來自以下方面:
數(shù)據里的“坑”
訓練數(shù)據局限:AI訓練數(shù)據可能包含錯誤、偏見或過時信息。就像教小朋友學習,課本是錯的,考試自然無法答對。
缺乏實時更新:AI通;陟o態(tài)數(shù)據訓練,無法及時獲取最新信息。考試要根據最新的資料復習,拿一本82年的教材是考不了24年的高考的~
訓練過程的“小插曲”
過度泛化:模型可能過于依賴某些模式,導致在新情況下推導錯誤。就像我們學習時候只記住了公式,卻不會靈活變通。
上下文理解不足:AI可能無法完全把握復雜的上下文關系。在處理多個復雜信息點,或者在推理時容易出錯。就像我們的大腦有時也會短路一樣。
模型本身的“小缺陷”
模型結構限制:AI通過統(tǒng)計模式預測,但可能無法真正理解信息。“你以為他真的懂你,其實也不過是基于復雜算法的數(shù)學而已~”4
如何避免AI幻覺?
避免AI幻覺有以下幾個“絕招”,各位少俠看“自身功力”,酌情修煉~
一. 提示工程有策略
提示工程通過優(yōu)化AI的輸入提示,使生成的內容更準確。A. 檢索增強生成(RAG)技術
RAG技術通過引入外部知識來幫助AI生成更準確的內容。主要方法包括:生成前檢索:在內容生成前,系統(tǒng)會預檢索相關背景信息,為生成過程打下堅實的基矗
生成過程中檢索:在生成過程中,系統(tǒng)實時檢索并整合外部知識,確保內容的時效性和深度。
生成后檢索:生成后,系統(tǒng)再次檢索,與現(xiàn)有證據進行對比,驗證生成內容的準確性。
例如,當AI被問到“2024年登月的宇航員有哪些?“時,RAG系統(tǒng)會先檢索最新的新聞信息,然后基于檢索到的準確信息生成回答。B. 基于反饋和推理的自我改進機制這種方法賦予AI自我反思的能力,使其能夠不斷優(yōu)化生成的內容。
AI在生成答案后,會進行自我審視,提出疑問:“這個答案是否全面?是否有關鍵信息被忽略?”C. 提示詞的精細化調優(yōu)通過精心設計的提示詞,引導AI生成更可靠、更精確的內容。
例如,在地圖導航的AI應用中,使用“請根據最新的交通管制政策、路況信息、天氣情況,提供明天上午九點到深圳灣公園的路線推薦,分別提供駕車與公共交通的路線信息,用時推薦等”具體提示,代替籠統(tǒng)的“如何去深圳灣公園”。這種方法不僅提升了信息的全面性,也增強了AI回答的針對性。(這不僅是我們最容易實現(xiàn)的策略,也是最直觀有效的方法,能夠顯著改善內容生成的質量和深度。
)二. 模型開發(fā)不能停AI模型與訓練過程的不斷進化是減少幻覺產生的關鍵。A. 創(chuàng)新解碼技術采用新的解碼策略,以便更精準地處理語言上下文,例如上下文感知解碼(CAD)。
這種方法通過在解碼過程中引入上下文信息,鼓勵模型更多地關注所提供的上下文,而不是僅僅依賴于模型在預訓練階段學到的知識。例子:在翻譯一部科幻小說時,傳統(tǒng)模型可能會直譯“Beam me up”為“把我光束上去”,而應用CAD的模型會理解這是一句要求傳送的指令,正確翻譯為“把我傳送上去”。B. 知識圖譜的應用通過知識圖譜,我們能夠豐富AI的知識庫,讓生成的內容更加準確和有深度。
想象一下,知識圖譜就像一個巨大的、互聯(lián)的“社交網絡”,但它不是連接人,而是連接各種信息和概念。每個“用戶”在這個網絡中都是一個實體,比如人、地點、事物或者概念。它們通過各種“關系”相互連接,就像社交軟件上的好友關系一樣。知識圖譜通過這種方式組織信息,就像一個超級學霸幫助AI快速找到信息,并且理解不同信息之間的聯(lián)系。舉個例子,如果你在知識圖譜中查找“蘋果”,它不僅會告訴你蘋果是一種水果,還可能告訴你蘋果公司是一家科技公司,甚至還會告訴你牛頓被蘋果啟發(fā)發(fā)現(xiàn)了萬有引力。C. 基于忠實度的損失函數(shù)引入新的損失函數(shù),對偏離原始數(shù)據的生成內容進行懲罰,以減少不準確的信息,從而把AI從幻覺中“掐醒”。
舉個例子,AI在生成文章摘要時,如果回答中添加了原文中未提及的內容,損失函數(shù)會提高懲罰,確保模型學習到生成與原文相符的內容。D. 監(jiān)督微調通過特定領域的數(shù)據進行微調,提升模型在特定任務上的準確性。
舉個例子,一個通用的語言模型可能對通信術語理解有限。通過使用大量通信行業(yè)資料進行訓練微調,可以顯著提高模型在通信領域的準確性。比如,它可以更準確地區(qū)分相似通信術語的區(qū)別,如EBGP和IBGP。三. AI Agent為模型加BuffAI Agent有特定的能力可以提高模型的可靠性,通過這種方式,AI Agent能夠更好地理解和處理復雜的任務,減少在生成文本時出現(xiàn)的錯誤或不準確的信息。A. PAL(Program-Aided Language Models,程序輔助語言模型):PAL技術通過將程序化邏輯嵌入到語言模型中,使得AI能夠執(zhí)行特定的程序或算法來完成任務。PAL技術像是一個“自動化工具”,它通過內置的程序邏輯來指導AI系統(tǒng)如何完成任務。這種技術的優(yōu)勢在于能夠處理那些規(guī)則明確、步驟固定的任務。
舉個例子,如果你告訴基于PAL技術的AI系統(tǒng):“我需要在每天下午3點提醒我喝水。”系統(tǒng)會設置一個自動化的日程提醒,每天按時提醒你,而不需要進一步的交互。
B. ReAct(Reasoning and Acting,推理與行動):ReAct技術強調AI對上下文的理解,以及基于這種理解進行的推理和決策。ReAct技術更像是一個“智能助手”,它不僅理解用戶的請求,還能夠根據請求的內容進行推理,并采取相應的行動。這種技術的優(yōu)勢在于能夠處理那些需要靈活推理和決策的任務。
舉個例子,如果你告訴基于ReAct算法的AI系統(tǒng):“我明天有個會議,需要準備一份報告。”ReAct系統(tǒng)會理解你的請求,然后推理出你需要的信息類型,可能會詢問你報告的具體內容和格式,然后根據這些信息來幫助你準備報告。