IT之家 3 月 7 日消息,去年三月底,OpenAI 宣布了一項名為 Voice Engine(聲音引擎)的人工智能服務(wù)的“小規(guī)模預(yù)覽”,聲稱該技術(shù)能夠在僅需 15 秒語音的情況下克隆一個人的聲音。然而,近一年過去,這項工具仍未正式推出,OpenAI 也未透露其是否會全面上線,以及何時上線。
OpenAI 對于 Voice Engine 的謹慎態(tài)度,可能源于對技術(shù)被濫用的擔憂,也可能是為了避免引發(fā)監(jiān)管審查。該公司此前曾被指責過于注重“亮眼產(chǎn)品”,而忽視安全性,并且急于趕在競爭對手之前發(fā)布產(chǎn)品。
OpenAI 發(fā)言人在接受 TechCrunch 采訪時表示,公司仍在與有限的“可信合作伙伴”一起測試 Voice Engine。該發(fā)言人稱:“我們正在從合作伙伴對技術(shù)的使用中學習,以提升模型的實用性和安全性。我們很高興看到它被應(yīng)用于多種場景,包括語音治療、語言學習、客戶支持、游戲角色以及 AI 虛擬形象等!
據(jù)IT之家了解,Voice Engine 是 OpenAI 文本轉(zhuǎn)語音 API 和 ChatGPT 語音模式背后的技術(shù),能夠生成與原始說話者極為相似的自然語音。該工具將書面文字轉(zhuǎn)換為語音,同時在內(nèi)容方面設(shè)置了某些限制。然而從一開始,Voice Engine 的發(fā)布就遭遇了延遲和發(fā)布時間窗口的不斷變化。
根據(jù) OpenAI 在 2024 年 6 月的一篇博客文章,Voice Engine 模型通過學習預(yù)測說話者在給定文本轉(zhuǎn)錄中可能發(fā)出的聲音,考慮不同的聲音、口音和說話風格,從而生成文本的語音版本,以及反映不同類型說話者朗讀文本的“語音表達”。
最初,OpenAI 計劃在 2024 年 3 月 7 日將 Voice Engine(當時名為 Custom Voices)引入其 API,并計劃讓最多 100 名“可信開發(fā)者”提前使用,優(yōu)先考慮那些開發(fā)具有“社會價值”或展示“創(chuàng)新和負責任”技術(shù)應(yīng)用的應(yīng)用程序的開發(fā)者。OpenAI 還為該服務(wù)設(shè)定了價格:“標準”語音每百萬字符收費 15 美元,“高清”語音每百萬字符收費 30 美元。然而,在最后一刻,公司推遲了發(fā)布。幾周后,OpenAI 在沒有提供注冊選項的情況下發(fā)布了 Voice Engine,僅允許 2023 年底開始合作的約 10 名開發(fā)者使用。
2024 年 3 月,OpenAI 在 Voice Engine 的發(fā)布博客中表示:“我們希望就合成語音的負責任部署以及社會如何適應(yīng)這些新能力展開對話。基于這些對話和小規(guī)模測試的結(jié)果,我們將就是否以及如何大規(guī)模部署這項技術(shù)做出更明智的決策!
據(jù) OpenAI 介紹,Voice Engine 自 2022 年起就開始研發(fā)。該公司聲稱在 2023 年夏天向全球最高層級的政策制定者展示了該工具的潛力和風險。目前,包括 Livox 在內(nèi)的幾家合作伙伴已經(jīng)可以使用 Voice Engine。Livox 是一家致力于為殘疾人開發(fā)更自然溝通設(shè)備的初創(chuàng)公司。其首席執(zhí)行官卡洛斯·佩雷拉(Carlos Pereira)告訴 TechCrunch,盡管由于 Voice Engine 的網(wǎng)絡(luò)要求(許多 Livox 的客戶沒有互聯(lián)網(wǎng)接入),他們無法將該技術(shù)整合到產(chǎn)品中,但他認為這項技術(shù)“令人印象深刻”。
佩雷拉通過電子郵件向 TechCrunch 表示:“語音的質(zhì)量以及語音能夠以不同語言說話的可能性是獨一無二的 尤其是對于我們的客戶,即殘疾人。這是我見過的最令人印象深刻且易于使用的創(chuàng)建語音的工具。我們希望 OpenAI 盡快開發(fā)出離線版本。”他補充說,他尚未收到來自 OpenAI 關(guān)于 Voice Engine 可能發(fā)布的任何指導(dǎo),也沒有看到該公司計劃開始收費的跡象。目前,Livox 的使用尚未產(chǎn)生任何費用。
在 2024 年 6 月的博客文章中,OpenAI 暗示延遲發(fā)布 Voice Engine 的原因之一是擔心該技術(shù)可能在去年美國選舉周期中被濫用;谂c利益相關(guān)者的討論,Voice Engine 采取了多項安全措施,包括為生成音頻添加水印以追溯其來源。
根據(jù) OpenAI 的說法,開發(fā)者在使用 Voice Engine 之前必須獲得原始說話者的“明確同意”,并且必須向其受眾“明確披露”語音是由 AI 生成的。然而,該公司尚未說明如何執(zhí)行這些政策。即使對于擁有 OpenAI 資源的公司來說,大規(guī)模執(zhí)行這些政策也可能極具挑戰(zhàn)性。
在博客文章中,OpenAI 還暗示希望開發(fā)一種“語音認證體驗”以驗證說話者身份,并建立一個“禁止清單”,防止創(chuàng)建與知名人士聲音過于相似的語音。這兩個項目在技術(shù)上都極具雄心,如果處理不當,將對一家常被指責忽視安全舉措的公司造成負面影響。
隨著 AI 語音克隆技術(shù)的快速發(fā)展,有效的過濾和身份驗證正迅速成為負責任發(fā)布語音克隆技術(shù)的基本要求。據(jù)相關(guān)報道,AI 語音克隆是 2024 年增長最快的第三大詐騙手段,導(dǎo)致了欺詐行為的增加和銀行安全檢查被繞過,而隱私和版權(quán)法律則難以跟上其發(fā)展速度。惡意行為者利用語音克隆技術(shù)制作名人和政客的煽動性深度偽造視頻,并在社交媒體上迅速傳播。
OpenAI 可能在下周推出 Voice Engine,也可能永遠不會推出。該公司多次表示,正在考慮將服務(wù)保持在較小范圍內(nèi)。但有一點是明確的:無論是出于形象考慮還是安全原因,Voice Engine 的有限預(yù)覽已成為 OpenAI 歷史上最長的一次。