展會(huì)信息港展會(huì)大全

Common Voice:用多語(yǔ)言數(shù)據(jù)打造包容性AI語(yǔ)音
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-26 08:07:07   瀏覽:207次  

導(dǎo)讀:來(lái)源:MIT Technology Review我們正處于語(yǔ)音 AI 爆發(fā)的邊緣,蘋(píng)果、OpenAI 等科技公司正推出新一代人工智能助手。然而,這些助手的默認(rèn)語(yǔ)音通常是白人美國(guó)口音如果幸運(yùn),可能是英國(guó)口音并且一定是英語(yǔ)。這些語(yǔ)音只代表英語(yǔ)中極小的一部分方言和口音,而英語(yǔ)覆蓋的區(qū)域和文化非常廣泛。如果你是全球數(shù)十億不講英語(yǔ)的人之一,那就運(yùn)氣不好了:這些工具在其他語(yǔ)言中的表現(xiàn)遠(yuǎn)不如英 ......

Common Voice:用多語(yǔ)言數(shù)據(jù)打造包容性AI語(yǔ)音

來(lái)源:MIT Technology Review

我們正處于語(yǔ)音 AI 爆發(fā)的邊緣,蘋(píng)果、OpenAI 等科技公司正推出新一代人工智能助手。然而,這些助手的默認(rèn)語(yǔ)音通常是白人美國(guó)口音如果幸運(yùn),可能是英國(guó)口音并且一定是英語(yǔ)。這些語(yǔ)音只代表英語(yǔ)中極小的一部分方言和口音,而英語(yǔ)覆蓋的區(qū)域和文化非常廣泛。如果你是全球數(shù)十億不講英語(yǔ)的人之一,那就運(yùn)氣不好了:這些工具在其他語(yǔ)言中的表現(xiàn)遠(yuǎn)不如英語(yǔ)。

這是因?yàn)橛脕?lái)訓(xùn)練這些模型的數(shù)據(jù)非常有限。在 AI 研究中,大多數(shù)訓(xùn)練數(shù)據(jù)都來(lái)自英語(yǔ)互聯(lián)網(wǎng),反映的是英美文化。然而,目前有一項(xiàng)龐大的基層努力試圖改變這一現(xiàn)狀,為 AI 語(yǔ)音帶來(lái)更多透明性和多樣性:Mozilla 發(fā)起的 Common Voice 項(xiàng)目。

過(guò)去七年中,Common Voice 創(chuàng)建的數(shù)據(jù)集已成為構(gòu)建語(yǔ)音 AI 最有用的資源之一。隨著當(dāng)前 AI 的快速發(fā)展,該數(shù)據(jù)集的下載量大幅增長(zhǎng),從 2020 年的 38,500 次躍升至最近的 500 萬(wàn)次。數(shù)據(jù)集的創(chuàng)建并不容易,主要依賴(lài)于大量志愿者的貢獻(xiàn)。志愿者人數(shù)也從 2020 年的不足 50 萬(wàn)人增長(zhǎng)到 2024 年的超過(guò) 90 萬(wàn)人。然而,一些社區(qū)成員認(rèn)為,通過(guò)免費(fèi)開(kāi)放數(shù)據(jù),Mozilla 實(shí)際上是在鼓勵(lì)志愿者為大型科技公司免費(fèi)勞動(dòng)。

自 2017 年以來(lái),Common Voice 項(xiàng)目的志愿者共收集了 31,000 小時(shí)的語(yǔ)音數(shù)據(jù),涵蓋約 180 種語(yǔ)言,包括俄語(yǔ)、加泰羅尼亞語(yǔ)和馬拉地語(yǔ)。如果你使用過(guò)基于音頻 AI 的服務(wù),很可能至少部分訓(xùn)練數(shù)據(jù)來(lái)自 Common Voice。

Mozilla 的目標(biāo)是高尚的。隨著 AI 越來(lái)越多地融入我們的生活以及溝通方式,讓我們所使用的工具聽(tīng)起來(lái)像我們自己變得尤為重要。這項(xiàng)技術(shù)可能打破溝通障礙,向無(wú)法閱讀的人群傳遞信息。然而,過(guò)于關(guān)注英語(yǔ)的風(fēng)險(xiǎn)在于鞏固一種新的殖民世界秩序,并可能導(dǎo)致一些語(yǔ)言的完全消失。

“如果最終我們不是創(chuàng)造出真正的多模態(tài)、多語(yǔ)言、高性能翻譯模型,而是迫使所有人都用英語(yǔ)或法語(yǔ)交流,那將是一個(gè)巨大的失敗,”Common Voice 項(xiàng)目主管 EM Lewis-Jong 說(shuō)。

Common Voice 是開(kāi)源的,任何人都可以查看數(shù)據(jù)集的內(nèi)容,并免費(fèi)將其用于任何用途。這種透明度在 AI 數(shù)據(jù)治理中十分罕見(jiàn)。根據(jù)華盛頓大學(xué)、卡內(nèi)基梅隆大學(xué)和西北大學(xué)的一項(xiàng)研究,大多數(shù)大型音頻數(shù)據(jù)集并未公開(kāi),許多數(shù)據(jù)來(lái)自對(duì) YouTube 等網(wǎng)站的抓取。

絕大多數(shù)語(yǔ)言數(shù)據(jù)是由志愿者收集的,例如來(lái)自土耳其的研究員 Bülent zden。自 2020 年以來(lái),他不僅捐贈(zèng)自己的語(yǔ)音,還通過(guò)提高公眾意識(shí)吸引更多人參與。他最近花了兩個(gè)月全職糾正土耳其語(yǔ)數(shù)據(jù)中的錯(cuò)誤和拼寫(xiě)問(wèn)題。對(duì)于他來(lái)說(shuō),改善 AI 模型并不是唯一的動(dòng)機(jī)。

“我這么做是為了保護(hù)文化,特別是低資源語(yǔ)言的文化,”zden 說(shuō)。他最近開(kāi)始收集土耳其一些小語(yǔ)種的樣本,例如切爾克斯語(yǔ)和扎扎語(yǔ)。

然而,我在深入研究數(shù)據(jù)集時(shí)注意到,語(yǔ)言和口音的覆蓋范圍非常不均衡。比如,芬蘭語(yǔ)僅有 231 人貢獻(xiàn)的 22 小時(shí)語(yǔ)音,而英語(yǔ)則有 94,665 名說(shuō)話(huà)者提供的 3,554 小時(shí)語(yǔ)音。一些語(yǔ)言(如韓語(yǔ)和旁遮普語(yǔ))的表現(xiàn)更差,盡管它們有數(shù)千萬(wàn)使用者,卻只錄制了幾個(gè)小時(shí)的數(shù)據(jù)。

這種不平衡的原因在于數(shù)據(jù)收集工作是由語(yǔ)言社區(qū)自下而上發(fā)起的,Lewis-Jong 解釋道。

“我們?cè)噲D為社區(qū)提供創(chuàng)建自己 AI 訓(xùn)練數(shù)據(jù)集所需的工具。我們特別關(guān)注那些缺乏數(shù)據(jù)的語(yǔ)言社區(qū),或者那些可能不被大型科技公司重視的語(yǔ)言,”Lewis-Jong 說(shuō)。他們希望借助志愿者和各種資助,到今年年底將 Common Voice 的數(shù)據(jù)集擴(kuò)展到接近 200 種語(yǔ)言。

Common Voice 的寬松許可政策使得許多公司依賴(lài)它。例如,瑞典初創(chuàng)公司 Mabel AI 利用它為醫(yī)療提供者構(gòu)建翻譯工具。公司首選的語(yǔ)言之一是烏克蘭語(yǔ),開(kāi)發(fā)了一款幫助烏克蘭難民與瑞典社會(huì)服務(wù)互動(dòng)的翻譯工具,Mabel AI 的創(chuàng)始人兼 CEO Karolina Sjberg 說(shuō)。團(tuán)隊(duì)隨后擴(kuò)展到其他語(yǔ)言,例如阿拉伯語(yǔ)和俄語(yǔ)。

很多其他音頻數(shù)據(jù)的問(wèn)題在于,它們大多是人們從書(shū)籍或文本中朗讀出來(lái)的。這與人們?cè)趯?shí)際交流中,尤其是在感到痛苦或壓力時(shí)的語(yǔ)音表現(xiàn)有很大不同,Sjberg 表示。由于 Common Voice 允許任何人提交句子供他人朗讀,Mozilla 的數(shù)據(jù)集中也包含了一些更口語(yǔ)化、更自然的句子。

然而,它并不完全具有代表性。Mabel AI 團(tuán)隊(duì)很快發(fā)現(xiàn),大多數(shù)他們需要的語(yǔ)音數(shù)據(jù)是由年輕男性捐贈(zèng)的,這在數(shù)據(jù)集中非常典型。

“我們打算與之合作的難民幾乎完全不是年輕男性,”Sjberg 說(shuō)!斑@意味著我們需要的語(yǔ)音數(shù)據(jù)并不完全符合我們已有的語(yǔ)音數(shù)據(jù)!眻F(tuán)隊(duì)開(kāi)始從烏克蘭女性和老年人中收集語(yǔ)音數(shù)據(jù)。

與其他數(shù)據(jù)集不同,Common Voice 要求參與者分享性別和口音等詳細(xì)信息。確保不同性別的代表性對(duì)于減少 AI 模型中的偏見(jiàn)至關(guān)重要,Common Voice 性別行動(dòng)計(jì)劃的創(chuàng)建者 Rebecca Ryakitimbo 表示。更多的多樣性不僅帶來(lái)更好的代表性,也能帶來(lái)更優(yōu)質(zhì)的模型。狹窄和同質(zhì)化的數(shù)據(jù)訓(xùn)練的系統(tǒng)往往會(huì)產(chǎn)生刻板印象和有害的結(jié)果。

“我們不希望出現(xiàn)這樣的情況:一個(gè)以女性命名的聊天機(jī)器人,對(duì)女性的回應(yīng)與對(duì)男性的回應(yīng)不同,”她說(shuō)。

Ryakitimbo 在坦桑尼亞、肯尼亞和剛果民主共和國(guó)收集了斯瓦希里語(yǔ)的語(yǔ)音數(shù)據(jù)。她表示,她希望從社會(huì)經(jīng)濟(jì)多樣化的斯瓦希里語(yǔ)人群中收集語(yǔ)音,包括年輕和年長(zhǎng)的女性,特別是那些可能不識(shí)字或沒(méi)有設(shè)備的農(nóng)村居民。

這種數(shù)據(jù)收集工作具有挑戰(zhàn)性。對(duì)于許多人來(lái)說(shuō),收集 AI 語(yǔ)音數(shù)據(jù)的重要性顯得很抽象,尤其是當(dāng)他們不熟悉這些技術(shù)時(shí)。Ryakitimbo 和志愿者通常在一些讓女性感到安全的環(huán)境中開(kāi)始,例如關(guān)于月經(jīng)衛(wèi)生的宣講活動(dòng),并解釋這項(xiàng)技術(shù)如何幫助傳播有關(guān)月經(jīng)的信息。對(duì)于不識(shí)字的性,團(tuán)隊(duì)會(huì)朗讀句子讓她們重復(fù)錄音。

Common Voice 項(xiàng)目的信念是,語(yǔ)言是身份的重要組成部分!拔覀冋J(rèn)為,這不僅關(guān)乎語(yǔ)言,也關(guān)乎傳承文化和遺產(chǎn),以及珍視人們的特定文化背景,”Lewis-Jong 說(shuō)!坝泻芏嗔(xí)語(yǔ)和文化口號(hào)是無(wú)法翻譯的,”他們補(bǔ)充道。

Common Voice 是唯一一個(gè)英語(yǔ)不是主導(dǎo)的數(shù)據(jù)集,卡內(nèi)基梅隆大學(xué)研究員Willie Agnew 表示。他曾研究過(guò)多個(gè)音頻數(shù)據(jù)集!拔覍(duì)他們的成果印象深刻,他們確實(shí)創(chuàng)建了一個(gè)非常多樣化的數(shù)據(jù)集,”Agnew 說(shuō)!跋噍^于我們研究的其他項(xiàng)目,他們已經(jīng)遙遙領(lǐng)先!

我花了一些時(shí)間在 Common Voice 平臺(tái)上驗(yàn)證其他芬蘭語(yǔ)使用者的錄音。當(dāng)他們的聲音在我的書(shū)房中回響時(shí),我感到意外的感動(dòng)。我們都為了同一個(gè)目標(biāo)聚集在一起:讓 AI 數(shù)據(jù)更加包容,并確保我們的文化和語(yǔ)言在下一代 AI 工具中得到充分的體現(xiàn)。

然而,我對(duì)捐贈(zèng)自己的聲音后將發(fā)生什么仍有許多疑問(wèn)。一旦進(jìn)入數(shù)據(jù)集,我將無(wú)法控制這些數(shù)據(jù)未來(lái)的用途?萍夹袠I(yè)并不以給予貢獻(xiàn)者應(yīng)有的認(rèn)可而聞名,而且這些數(shù)據(jù)對(duì)任何人都是開(kāi)放使用的。

“盡管我們希望這些數(shù)據(jù)能惠及當(dāng)?shù)厣鐓^(qū),但也有可能大型科技公司利用這些數(shù)據(jù)開(kāi)發(fā)出商業(yè)產(chǎn)品,”Ryakitimbo 說(shuō)。雖然 Mozilla不公開(kāi) Common Voice 數(shù)據(jù)的下載者,但 Lewis-Jong 告訴我,Meta 和 Nvidia 曾表示他們使用過(guò)這些數(shù)據(jù)。

開(kāi)放訪(fǎng)問(wèn)這些來(lái)之不易的少數(shù)語(yǔ)言數(shù)據(jù)并不是所有群體都希望看到的,卡內(nèi)基梅隆大學(xué)的研究員 Harry H. Jiang 表示。他參與了一項(xiàng)數(shù)據(jù)審核研究。他提到,例如一些原住民群體就表達(dá)了擔(dān)憂(yōu)。

過(guò)去 18 個(gè)月中,Mozilla 一直在考慮“資源剝奪”問(wèn)題,Lewis-Jong 表示。今年晚些時(shí)候,該項(xiàng)目將與社區(qū)合作試行包括 Nwulite Obodo 開(kāi)放數(shù)據(jù)許可在內(nèi)的替代性許可模式。這種模式由比勒陀利亞大學(xué)的研究人員開(kāi)發(fā),用于更公平地分享非洲數(shù)據(jù)集。例如,數(shù)據(jù)下載者可能需要提交使用計(jì)劃的詳細(xì)信息,并可能僅限于特定產(chǎn)品或有限時(shí)間內(nèi)的許可使用。用戶(hù)可能還需要為支持減貧的社區(qū)項(xiàng)目做出貢獻(xiàn),Lewis-Jong 補(bǔ)充道。

Lewis-Jong 表示,這項(xiàng)試點(diǎn)是一次學(xué)習(xí)探索,目的是了解社區(qū)是否需要帶有替代許可的數(shù)據(jù),以及這些許可是否可持續(xù)。他們希望這一嘗試能帶來(lái)類(lèi)似“開(kāi)源 2.0”的模式。

最終,我決定捐贈(zèng)我的聲音。我收到了一系列要朗讀的短語(yǔ),坐在電腦前按下了錄音按鈕。我希望有一天,我的努力能幫助某家公司或研究者開(kāi)發(fā)出更具個(gè)性化的語(yǔ)音 AI,而不是千篇一律的聲音。

原文鏈接:

https://www.technologyreview.com/2024/11/15/1106935/how-this-grassroots-effort-could-make-ai-voices-more-diverse/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港