展會(huì)信息港展會(huì)大全

讓大模型能聽會(huì)說,國(guó)內(nèi)機(jī)構(gòu)開源首個(gè)端到端語音對(duì)話模型Mini-Omni
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-08 09:40:38   瀏覽:1850次  

導(dǎo)讀:AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.c...

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文出自啟元世界多模態(tài)算法組,共同一作是來自清華大學(xué)的一年級(jí)碩士生謝之非與啟元世界多模態(tài)負(fù)責(zé)人吳昌橋,研究興趣為多模態(tài)大模型、LLM Agents 等。本論文上線幾天內(nèi)在 github 上斬獲 1000+ 星標(biāo)。

隨著多類型大模型的飛速發(fā)展,全球 AI 已經(jīng)進(jìn)入到了多模交互時(shí)代。

2024 年 5 月,OpenAI 推出了全新的多模態(tài)模型 GPT4o,引起全球轟動(dòng)。其中 GPT4o 展現(xiàn)出了與人類相近的自然語言交互能力,實(shí)現(xiàn)了 AI 能同時(shí)讀懂人類語音中的內(nèi)容及情緒,并實(shí)時(shí)做出反潰同時(shí),GPT4o 也給眾多語音研究人員帶來「新的春天」,語音文本多模態(tài)大模型成為熱門研究方向。

實(shí)現(xiàn)類似 GPT4o 實(shí)時(shí)語音交互能力的核心是模型能夠直接在語音模態(tài)上進(jìn)行理解和推理,這與傳統(tǒng)的語音對(duì)話功能有本質(zhì)的不同,F(xiàn)有的語音對(duì)話系統(tǒng)中主要包含 3 個(gè)過程:首先將輸入語音內(nèi)容轉(zhuǎn)換為文本,其次利用大語言模型進(jìn)行文本推理,最后利用語音合成系統(tǒng)生成并輸出語音。

然而,類似的多階段串聯(lián)系統(tǒng)存在一些缺陷,比如模型無法理解語音中包含的情緒及其它非文本內(nèi)容信息;同時(shí)由于額外的語音識(shí)別及合成帶來的時(shí)間開銷導(dǎo)致 AI 回復(fù)遲緩等實(shí)時(shí)性問題。

針對(duì)以上問題,學(xué)術(shù)界開始研究支持端到端、語音到語音的多模態(tài)大模型。為方便結(jié)合大語言模型的研究成果,通常會(huì)將語音離散化為 Audio Token,并基于 Audio Token 進(jìn)行學(xué)習(xí)和推理。這其中具有代表性的工作包括 SpeechGPT、Spectron 等,它們均采用QuestionAudio-QuestionText-AnswerText-AnswerAudio 等形式來降低直接對(duì)語音進(jìn)行學(xué)習(xí)推理的難度。

但同時(shí),這些方法也需要生成完整的 AnswerText 后才能生成 AnswerAudio,無法解決實(shí)時(shí)性問題。

為解決上述問題,我們提出了 Mini-Omni,第一個(gè)開源的端到端實(shí)時(shí)語音多模態(tài)模型,支持語音輸入、流式語音輸出的多模態(tài)交互能力。具體來講,我們提出了文本-語音同時(shí)生成的方案,通過讓已生成的文本 token 指導(dǎo)生成語音 token,有效降低了直接推理語音內(nèi)容的難度,同時(shí)避免了等待生成完整文本答案帶來的時(shí)間消耗。

讓大模型能聽會(huì)說,國(guó)內(nèi)機(jī)構(gòu)開源首個(gè)端到端語音對(duì)話模型Mini-Omni

論文題目:Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

論文地址:https://arxiv.org/abs/2408.16725

代碼倉庫:https://github.com/gpt-omni/mini-omni

針對(duì)多層級(jí)的音頻編碼方案,本文采用不同層級(jí)延遲并行輸出的方案減小音頻推理長(zhǎng)度,有效解決實(shí)時(shí)性問題。同時(shí)還提出了多任務(wù)同時(shí)推理的生成方法進(jìn)一步加強(qiáng)模型的語音推理能力。另一方面,本文所采用訓(xùn)練方案可有效遷移至任意語言大模型,通過增加少量參數(shù)及分階段訓(xùn)練,在盡可能保留模型原始推理能力的同時(shí),為模型加上 「聽、說」的語音交互能力。

為了驗(yàn)證方案的有效性,Mini-Omni 在使用僅 0.5B 的小模型和少量開源及合成數(shù)據(jù)的情況下,在實(shí)時(shí)語音問答及語音識(shí)別等方面表現(xiàn)出令人驚喜的效果。

總結(jié)來說,本文主要貢獻(xiàn)為:

提出了首個(gè)開源的端到端、實(shí)時(shí)語音交互的多模態(tài)模型解決方案,支持語音流式輸出,不需要額外的 ASR 或 TTS 系統(tǒng)。

推理過程中,可同時(shí)生成語音和文本信息,通過文本指導(dǎo)語音生成,有效降低語音推理的學(xué)習(xí)難度。

提出多階段的訓(xùn)練方案,可通過少量開源或合成數(shù)據(jù)使任意語言模型具備語音交互能力。

Mini-Omni 模型架構(gòu)

Mini-Omni 整體模型框架如下圖所示,模型輸入端可以是語音或文本,輸出端同時(shí)包含文本和語音。為復(fù)用語言模型「預(yù)測(cè)下一個(gè) token」的學(xué)習(xí)范式,輸出側(cè)語音采用離散編碼,本文采用了 SNAC 編解碼方案。

針對(duì)語音交互場(chǎng)景,輸入語音經(jīng)過預(yù)訓(xùn)練 whisper 的語音編碼模塊進(jìn)行連續(xù)特征提取,然后通過 2 層 MLP 對(duì)齊語音信息與文本信息。輸出側(cè),每一步會(huì)通過音頻解碼頭和文本解碼頭同時(shí)進(jìn)行文本 token 與語音 token 解碼,然后將輸出的音頻表征和文本表征進(jìn)行特征融合,再作為下一步的輸入。同時(shí),在推理過程中,可將輸出的語音 token 流式輸入至 SNAC 解碼器中生成語音,實(shí)現(xiàn)低延遲的語音交互。

通過采用文本信息指導(dǎo)語音信息輸出的形式,有效降低了直接進(jìn)行語音輸出推理的學(xué)習(xí)難度,實(shí)現(xiàn)少量數(shù)據(jù)即可使語言模型具備語音問答能力。這種一邊生成文本,一邊生成對(duì)應(yīng)語音的形式功能上類似于「在線 TTS 系統(tǒng) (online TTS)」,具有較好的靈活性。

讓大模型能聽會(huì)說,國(guó)內(nèi)機(jī)構(gòu)開源首個(gè)端到端語音對(duì)話模型Mini-Omni

文本指導(dǎo)下的音頻生成

為降低直接推理語音信息的學(xué)習(xí)難度,以及減少推理過程中語音 token 長(zhǎng)度,我們采用了文本和語音延遲并行生成的方案,其示意圖如下。

讓大模型能聽會(huì)說,國(guó)內(nèi)機(jī)構(gòu)開源首個(gè)端到端語音對(duì)話模型Mini-Omni

本文所采用的 SNAC 方案,每一幀具有 7 個(gè)有效語音 token,對(duì)應(yīng)音頻時(shí)長(zhǎng)為 80ms。一種語音建模方案是將語音的所有 token 平鋪展開進(jìn)行順序推理,類似方案在音樂生成領(lǐng)域已被驗(yàn)證生成效果較好。但也存在語音 token 序列長(zhǎng)、學(xué)習(xí)難度高等問題。為實(shí)現(xiàn)實(shí)時(shí)語音推理,我們采用延遲并行推理的方案

具體來講,模型每一步同時(shí)生成 8 個(gè) token,包括 7 個(gè)語音 token 和 1 個(gè)文本 token。由于音頻依賴文本內(nèi)容,而音頻的 7 個(gè) token 之間從前到后是由粗到細(xì)的建模關(guān)系,所以在推理開始時(shí)如上圖 (b) 所示。首先生成文本的第一個(gè) token,然后生成文本的第二個(gè) token 和第一層音頻的第一個(gè) token,以此類推。先輸出文本 token 主要為了語音 token 在生成過程中有文本內(nèi)容進(jìn)行參考。

同時(shí),由于文本指導(dǎo)語音生成方案的靈活性,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),推理時(shí)在一個(gè)批次中同時(shí)進(jìn)行 audio-to-audio 和 audio-to-text 兩個(gè)任務(wù),并用后者的文本 token 替換前者的文本 token 以指導(dǎo)前者的語音生成(如上圖 c 中所示),可有效提升語音對(duì)話的能力。

讓每個(gè)模型都能「聽說」

我們提出了一種主要基于適配器的模型能力擴(kuò)展方法,具體學(xué)習(xí)過程可以分為三個(gè)階段:

首先模態(tài)對(duì)齊:此階段的目標(biāo)是增強(qiáng)文本模型理解和生成語音的能力。過程中,Mini-Omni 的 LLM 模塊完全凍結(jié),只在語音理解和生成兩個(gè)適配器中進(jìn)行梯度更新。在這個(gè)階段,我們使用開源語音識(shí)別 (ASR) 和語音合成 (TTS) 數(shù)據(jù)集來進(jìn)行訓(xùn)練。

其次適應(yīng)訓(xùn)練:完成新的模態(tài)與文本模態(tài)的輸入對(duì)齊后,將語音適配器凍結(jié)。在這個(gè)階段中,我們將可用的文本問答對(duì)中的問題部分采用開源多音色的語音合成系統(tǒng)進(jìn)行語音數(shù)據(jù)合成,生成語音問答數(shù)據(jù)集。我們關(guān)注于訓(xùn)練模型在給定音頻輸入時(shí)的文本推理能力。模型使用語音識(shí)別 (ASR)、語音問答 (AudioTextQA) 和文本問答 (TextTextQA) 任務(wù)的數(shù)據(jù)集進(jìn)行訓(xùn)練。

最后多模態(tài)微調(diào):在最后階段,我們使用全面的數(shù)據(jù)對(duì)整個(gè)模型進(jìn)行微調(diào),新增如全語音問答 (AudioAudioQA)、文本語音問答 (TextAudioQA) 等形式數(shù)據(jù)集。此時(shí),除了音頻所有模型權(quán)重都會(huì)參與訓(xùn)練。由于適配器訓(xùn)練期間已經(jīng)處理了主要的模態(tài)對(duì)齊任務(wù),原始模型的能力得以最大限度地保留。

通過上述多階段的訓(xùn)練流程,結(jié)合開源語音數(shù)據(jù),本文只需合成少量的語音問答數(shù)據(jù)即可使任意語言模型具備「聽說」的能力,實(shí)現(xiàn)純語音的端到端自然交互。

實(shí)驗(yàn)效果

我們主要采用開源語音或文本問答數(shù)據(jù)進(jìn)行訓(xùn)練,具體可參考下表。其中 A1 和 T1 表示音頻及對(duì)應(yīng)的文本內(nèi)容,A2、T2 同理。針對(duì)問答場(chǎng)景,1 表示問題,2 表示對(duì)應(yīng)問答的答案。

讓大模型能聽會(huì)說,國(guó)內(nèi)機(jī)構(gòu)開源首個(gè)端到端語音對(duì)話模型Mini-Omni

下圖中,我們展示了 Audio-to-Text、Audio-to-Audio、Batch-Audio-to-Audio 三種任務(wù)中 Mini-Omni 的具體表現(xiàn)。

讓大模型能聽會(huì)說,國(guó)內(nèi)機(jī)構(gòu)開源首個(gè)端到端語音對(duì)話模型Mini-Omni

更多研究細(xì)節(jié),可參考原論文。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港