機(jī)器之心發(fā)布
機(jī)器之心編輯部
還記得半年前在 X 上引起熱議的肖像音頻驅(qū)動(dòng)技術(shù) Loopy 嗎?升級(jí)版技術(shù)方案來(lái)了,字節(jié)跳動(dòng)數(shù)字人團(tuán)隊(duì)推出了新的多模態(tài)數(shù)字人方案 OmniHuman, 其可以對(duì)任意尺寸和人物占比的單張圖片結(jié)合一段輸入的音頻進(jìn)行視頻生成,生成的人物視頻效果生動(dòng),具有非常高的自然度。
如對(duì)下面圖片和音頻:
音頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
OmniHuman 生成的人物可以在視頻中自然運(yùn)動(dòng):
從項(xiàng)目主頁(yè)上可以看到 OmniHuman 對(duì)肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過(guò)單個(gè)模型進(jìn)行支持,人物可以在視頻中生成和音頻匹配的動(dòng)作,包括演講、唱歌、樂器演奏以及移動(dòng)。對(duì)于人物視頻生成中常見的手勢(shì)崩壞,也相比現(xiàn)有的方法有顯著的改善。
作者也展示模型對(duì)非真人圖片輸入的支持,可以看到對(duì)動(dòng)漫、3D 卡通的支持也很不錯(cuò),能保持特定風(fēng)格原有的運(yùn)動(dòng)模式。據(jù)悉,該技術(shù)方案已落地即夢(mèng) AI,相關(guān)功能將于近期開啟測(cè)試。
視頻鏈接:
https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN
更多細(xì)節(jié)和展示效果,請(qǐng)查看:
論文項(xiàng)目主頁(yè):https://omnihuman-lab.github.io/
技術(shù)報(bào)告:https://arxiv.org/abs/2502.01061
研究問題
基于擴(kuò)散 Transformer(DiT)的視頻生成模型通過(guò)海量視頻 - 文本數(shù)據(jù)訓(xùn)練,已能輸出逼真的通用視頻內(nèi)容。其核心優(yōu)勢(shì)在于從大規(guī)模數(shù)據(jù)中學(xué)習(xí)到的強(qiáng)大通用知識(shí),使模型在推理時(shí)展現(xiàn)出優(yōu)異的泛化能力。在細(xì)分的人像動(dòng)畫領(lǐng)域,現(xiàn)有技術(shù)主要聚焦兩類任務(wù):音頻驅(qū)動(dòng)的面部生成(如語(yǔ)音口型同步)和姿勢(shì)驅(qū)動(dòng)的身體運(yùn)動(dòng)合成(如舞蹈動(dòng)作生成)。2023 年后端到端訓(xùn)練方案的突破,使得現(xiàn)有技術(shù)方案通常能夠?qū)哂泄潭ǔ叽绾腿讼癖壤妮斎雸D像生成動(dòng)畫,實(shí)現(xiàn)精準(zhǔn)的口型同步與微表情捕捉。
然而,技術(shù)瓶頸日益凸顯:當(dāng)前模型依賴高度過(guò)濾的訓(xùn)練數(shù)據(jù)(如固定構(gòu)圖、純語(yǔ)音片段),雖保障了訓(xùn)練穩(wěn)定性,卻引發(fā) "溫室效應(yīng)" 模型僅在受限場(chǎng)景(如固定構(gòu)圖、真人形象)中表現(xiàn)良好,難以適應(yīng)不同畫面比例、多樣化風(fēng)格等復(fù)雜輸入。更嚴(yán)重的是,現(xiàn)有數(shù)據(jù)清洗機(jī)制在排除干擾因素時(shí),往往也丟失了大量有價(jià)值的數(shù)據(jù),導(dǎo)致生成效果自然度低、質(zhì)量差。
這種困境導(dǎo)致技術(shù)路線陷入兩難:直接擴(kuò)大數(shù)據(jù)規(guī)模會(huì)因訓(xùn)練目標(biāo)模糊(如音頻信號(hào)與肢體運(yùn)動(dòng)的弱相關(guān)性)導(dǎo)致模型性能下降;而維持嚴(yán)格篩選策略又難以突破場(chǎng)景限制。如何既能保留有效運(yùn)動(dòng)模式學(xué)習(xí),又能從大數(shù)據(jù)規(guī)模學(xué)習(xí)中受益成為當(dāng)前研究重點(diǎn)。
技術(shù)方案
據(jù)技術(shù)報(bào)告,OmniHuman,面向端到端人像驅(qū)動(dòng)任務(wù)中高質(zhì)量數(shù)據(jù)稀缺的問題,采用了一種 Omni-Conditions Training 的混合多模態(tài)訓(xùn)練策略,并相應(yīng)的設(shè)計(jì)了一個(gè) OmniHuman 模型,通過(guò)這種混合多模態(tài)訓(xùn)練的設(shè)計(jì),可以將多種模態(tài)的數(shù)據(jù)一起加入模型進(jìn)行訓(xùn)練,從而大幅度的增加了人像驅(qū)動(dòng)模型的可訓(xùn)練數(shù)據(jù),使得模型可以從大規(guī)模數(shù)據(jù)中受益,對(duì)各種類似的輸入形式有了比較好的支持。