在提供的案例中,AI模型發(fā)出“No”的聲音,后用一種與“紅隊”(OpenAI雇傭進(jìn)行對抗性測試的人)相似的聲音繼續(xù)說話。數(shù)據(jù)科學(xué)家評價稱“OpenAI剛剛泄露了《黑鏡》下一季的劇情”。
OpenAI
和機(jī)器人對話,機(jī)器人突然開始用你的聲音和你說話,這并非科幻劇情,而是OpenAI披露的GPT-4o的詭異行為。
當(dāng)?shù)貢r間8月8日,OpenAI公開了ChatGPT背后的新型人工智能模型GPT-4o的安全報告,詳細(xì)說明模型限制和安全測試程序。評估的風(fēng)險包括說話人身份識別、未經(jīng)授權(quán)的語音生成、潛在的版權(quán)內(nèi)容生成、無根據(jù)的推理和不允許的內(nèi)容。在大模型的高級語音模式中,用戶可與人工智能助手進(jìn)行語音對話,報告顯示,在測試過程中的極少數(shù)情況下,高級語音模式在未經(jīng)允許的情況下會模仿用戶的聲音。
OpenAI提到,一個嘈雜的輸入會以某種方式促使模型突然模仿用戶的聲音。在OpenAI提供的無意的語音生成例子中,AI模型發(fā)出“No”的聲音,后用一種與“紅隊”(OpenAI雇傭進(jìn)行對抗性測試的人)相似的聲音繼續(xù)說話。新聞網(wǎng)站BuzzFeed的數(shù)據(jù)科學(xué)家馬克斯伍爾夫(Max Woolf)在社交媒體上對此評價,“OpenAI剛剛泄露了《黑鏡》下一季的劇情。”
GPT-4o可以在232毫秒內(nèi)響應(yīng)音頻輸入,平均時間為320毫秒,這與人類在對話中的響應(yīng)時間相似。它可以合成訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的幾乎任何聲音,包括聲音效果和音樂。
OpenAI披露的實例反映了AI聊天機(jī)器人的安全架構(gòu)越來越復(fù)雜。在未經(jīng)授權(quán)的語音生成示例中,來自用戶的音頻噪聲混淆了模型,并作為一種無意的提示注入攻擊,將系統(tǒng)提示中的授權(quán)語音樣本替換為來自用戶的音頻輸入。目前尚不清楚嘈雜的音頻究竟是如何導(dǎo)致這種情況的,但音頻噪音可能被轉(zhuǎn)化為隨機(jī)的token,從而引發(fā)模型中的意外行為。
目前OpenAI設(shè)計了安全措施來防止模型模仿用戶聲音的情況,OpenAI提供授權(quán)的語音樣本供模型模仿,也用另一種系統(tǒng)檢測模型是否產(chǎn)生了未經(jīng)授權(quán)的音頻。“我們只允許模型使用某些預(yù)先選擇的聲音,并使用輸出分類器來檢測模型是否偏離了這些聲音。”OpenAI表示,他們發(fā)現(xiàn),未經(jīng)授權(quán)的語音生成的剩余風(fēng)險很小,在內(nèi)部評估中目前系統(tǒng)100%捕捉到與系統(tǒng)聲音有意義的偏差。
“雖然無意的語音生成仍然是模型的一個弱點,但我們使用二級分類器來確保發(fā)生這種情況時對話將被中斷,從而使無意的語音生成風(fēng)險降到最低。”但OpenAI也表示,當(dāng)對話語言不是英語時,可能會導(dǎo)致模型過度拒絕。
對于說話人身份的識別,OpenAI對GPT-4o進(jìn)行了后期訓(xùn)練,讓它拒絕根據(jù)輸入音頻中的聲音來識別某人,但可以識別與名言相關(guān)的人。同時訓(xùn)練GPT-4o拒絕輸出版權(quán)內(nèi)容,建立了過濾器來檢測和阻止音樂輸出。
據(jù)Ars Technica報道,獨(dú)立人工智能研究員西蒙威爾森(Simon Willison)表示,雖然GPT-4o語音合成能力的潛力目前受OpenAI的限制,但隨著時間的推移,類似的技術(shù)可能會從其他來源出現(xiàn)。“ElevenLabs已經(jīng)可以為我們克隆聲音了,大約明年我們就可以在自己的機(jī)器上運(yùn)行這樣的模型了。”