展會信息港展會大全

清華團(tuán)隊新算法玩轉(zhuǎn)頻域時域,壓縮95%計算量實(shí)現(xiàn)語音分離新SOTA!
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-17 08:06:57   瀏覽:231次  

導(dǎo)讀:AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在嘈雜的環(huán)境中,人類能夠?qū)W⒂谔囟ǖ恼Z音信號,這種現(xiàn)象被稱為「雞尾酒會效應(yīng)」。對 ......

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在嘈雜的環(huán)境中,人類能夠?qū)W⒂谔囟ǖ恼Z音信號,這種現(xiàn)象被稱為「雞尾酒會效應(yīng)」。對于機(jī)器來說,如何從混合的音頻信號中準(zhǔn)確分離出不同的聲源是一個重要的挑戰(zhàn)。

語音分離(Speech Separation)能夠有效提高語音識別的準(zhǔn)確性,通常作為識別的前置步驟。因此,語音分離模型不僅需要在真實(shí)音頻上輸出分離良好的結(jié)果,同時還要滿足低延遲的需求。

近年來,深度學(xué)習(xí)在語音分離任務(wù)中的應(yīng)用受到了廣泛關(guān)注。盡管許多高性能的語音分離方法被提出,但仍有兩個關(guān)鍵問題未能得到充分解決:一是許多模型計算復(fù)雜度太高,未充分考慮實(shí)際應(yīng)用場景的需求;二是常用的語音分離數(shù)據(jù)集與真實(shí)場景存在較大差距,導(dǎo)致模型在真實(shí)數(shù)據(jù)上的泛化能力不足。

為了解決這些問題,清華大學(xué)的研究團(tuán)隊設(shè)計了一種名為 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction network)的輕量級語音分離模型,并提出了一個新的數(shù)據(jù)集 EchoSet,旨在更真實(shí)地模擬復(fù)雜聲學(xué)環(huán)境中的語音分離任務(wù)。

實(shí)驗(yàn)結(jié)果表明,TIGER 在壓縮 94.3% 參數(shù)量和 95.3% 計算量的同時,性能與當(dāng)前最先進(jìn)的模型 TF-GridNet [1] 相當(dāng)。

清華團(tuán)隊新算法玩轉(zhuǎn)頻域時域,壓縮95%計算量實(shí)現(xiàn)語音分離新SOTA!

論文標(biāo)題:TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

論文鏈接:https://arxiv.org/pdf/2410.01469

項(xiàng)目主頁:https://cslikai.cn/TIGER

GitHub 鏈接:https://github.com/JusperLee/TIGER

數(shù)據(jù)鏈接:https://huggingface.co/datasets/JusperLee/EchoSet

方法


語音分離任務(wù)的核心是從混合的音頻信號中恢復(fù)出每個說話者的清晰語音。傳統(tǒng)的語音分離模型通常直接在時域或頻域進(jìn)行處理,但往往忽略了時間和頻率維度之間的交互信息。為了更高效地提取語音特征,TIGER 模型采用了時頻交叉建模的策略,結(jié)合頻帶切分和多尺度注意力機(jī)制,顯著提升了分離效果。

TIGER 模型的整體流程可以分為五個主要部分:編碼器、頻帶切分模塊、分離器、頻帶恢復(fù)模塊和解碼器。首先,通過短時傅里葉變換(STFT)將混合音頻信號轉(zhuǎn)換為時頻表示。接著,將整個頻帶劃分為多個子帶,每個子帶通過一維卷積轉(zhuǎn)換為統(tǒng)一的特征維度。分離器由多個時頻交叉建模模塊(FFI)組成,用于提取每個說話者的聲學(xué)特征。最后,頻帶恢復(fù)模塊將子帶恢復(fù)到全頻帶范圍,并通過逆短時傅里葉變換(iSTFT)生成每個說話者的清晰語音信號。

清華團(tuán)隊新算法玩轉(zhuǎn)頻域時域,壓縮95%計算量實(shí)現(xiàn)語音分離新SOTA!

TIGER 整體流程

頻帶切分


語音信號的能量分布在不同頻帶上并不均勻,中低頻帶通常包含更多的語音信息,而高頻帶則包含更多的噪聲和細(xì)節(jié)信息。為了減少計算量并提升模型對關(guān)鍵頻帶的關(guān)注,TIGER 采用了頻帶切分策略,根據(jù)重要性將頻帶劃分為不同寬度的子帶。這種策略不僅減少了計算量,還能讓模型更專注于重要的頻帶,從而提升分離效果。

分離器


語音信號的時間和頻率維度之間存在復(fù)雜的交互關(guān)系。為了更高效地建模這種交互關(guān)系,TIGER 引入了時頻交叉建模模塊(FFI)。為了減少參數(shù),分離器由多個共享參數(shù)的 FFI 模塊構(gòu)成。每個 FFI 模塊包含兩個路徑:頻率路徑和幀路徑。

每個路徑都包含兩個關(guān)鍵子模塊:多尺度選擇性注意力模塊(MSA)和全頻 / 幀注意力模塊(FA)。通過交替處理時間和頻率信息,F(xiàn)FI 模塊能夠有效地整合時頻特征,提升語音分離的效果。

清華團(tuán)隊新算法玩轉(zhuǎn)頻域時域,壓縮95%計算量實(shí)現(xiàn)語音分離新SOTA!

FFI 模塊內(nèi)部細(xì)節(jié)

多尺度選擇性注意力模塊(MSA)

為了增強(qiáng)模型對多尺度特征的提取能力,TIGER 引入了 MSA,通過多尺度卷積層和選擇性注意力機(jī)制,融合局部和全局信息。MSA 模塊分為三個階段:編碼、融合和解碼。

以頻率路徑為例,在編碼階段,通過多個一維卷積層逐步下采樣頻率維度,提取多尺度的聲學(xué)特征。在融合階段,使用選擇性注意力機(jī)制將局部特征和全局特征進(jìn)行融合,生成包含多尺度信息的特征。在解碼階段,通過上采樣和卷積操作逐步恢復(fù)頻率維度,最終輸出增強(qiáng)后的頻率特征。

清華團(tuán)隊新算法玩轉(zhuǎn)頻域時域,壓縮95%計算量實(shí)現(xiàn)語音分離新SOTA!

MSA 模塊內(nèi)部細(xì)節(jié)(以頻率路徑為例)

全頻 / 幀注意力模塊(FA)

為了捕捉長距離依賴關(guān)系,TIGER 采用了全 / 頻幀注意力模塊(FA)。同樣以頻率路徑為例,首先采用二維卷積將輸入特征轉(zhuǎn)換為查詢(Query)、鍵(Key)和值(Value),然后將特征維度和時間維度合并,得到每個頻帶對應(yīng)的全幀信息。

通過自注意機(jī)制計算頻率維度上的注意力權(quán)重,用于加強(qiáng)頻帶間關(guān)系的捕捉,提升語音分離的效果。

清華團(tuán)隊新算法玩轉(zhuǎn)頻域時域,壓縮95%計算量實(shí)現(xiàn)語音分離新SOTA!

FA 模塊內(nèi)部細(xì)節(jié)(以頻率路徑為例)

EchoSet:更接近真實(shí)聲學(xué)場景

的語音分離數(shù)據(jù)集


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港