色偷偷一区二区无码视频,强开小婷嫩苞又嫩又紧韩国视频

AI「視覺圖靈」時(shí)代來(lái)了！字節(jié)OmniHuman，一張圖配上音頻，就能直接生成視頻

來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-07 07:24:18 瀏覽：229次

導(dǎo)讀：機(jī)器之心發(fā)布機(jī)器之心編輯部還記得半年前在 X 上引起熱議的肖像音頻驅(qū)動(dòng)技術(shù) Loopy 嗎？升級(jí)版技術(shù)方案來(lái)了，字節(jié)跳動(dòng)數(shù)字人團(tuán)隊(duì)推出了新的多模態(tài)數(shù)字人方案 OmniHuman, 其可以對(duì)任意尺寸和人物占比的單張圖片結(jié)合一段輸入的音頻進(jìn)行視頻生成，生成的人物視頻效果生動(dòng)，具有非常高的自然度。如對(duì)下面圖片和音頻：音頻鏈接：https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w? ......

機(jī)器之心發(fā)布

機(jī)器之心編輯部

還記得半年前在 X 上引起熱議的肖像音頻驅(qū)動(dòng)技術(shù) Loopy 嗎？升級(jí)版技術(shù)方案來(lái)了，字節(jié)跳動(dòng)數(shù)字人團(tuán)隊(duì)推出了新的多模態(tài)數(shù)字人方案 OmniHuman, 其可以對(duì)任意尺寸和人物占比的單張圖片結(jié)合一段輸入的音頻進(jìn)行視頻生成，生成的人物視頻效果生動(dòng)，具有非常高的自然度。

如對(duì)下面圖片和音頻：

AI「視覺圖靈」時(shí)代來(lái)了！字節(jié)OmniHuman，一張圖配上音頻，就能直接生成視頻

音頻鏈接：

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

OmniHuman 生成的人物可以在視頻中自然運(yùn)動(dòng)：

從項(xiàng)目主頁(yè)上可以看到 OmniHuman 對(duì)肖像、半身以及全身這些不同人物占比、不同圖片尺寸的輸入都可以通過(guò)單個(gè)模型進(jìn)行支持，人物可以在視頻中生成和音頻匹配的動(dòng)作，包括演講、唱歌、樂器演奏以及移動(dòng)。對(duì)于人物視頻生成中常見的手勢(shì)崩壞，也相比現(xiàn)有的方法有顯著的改善。

作者也展示模型對(duì)非真人圖片輸入的支持，可以看到對(duì)動(dòng)漫、3D 卡通的支持也很不錯(cuò)，能保持特定風(fēng)格原有的運(yùn)動(dòng)模式。據(jù)悉，該技術(shù)方案已落地即夢(mèng) AI，相關(guān)功能將于近期開啟測(cè)試。

AI「視覺圖靈」時(shí)代來(lái)了！字節(jié)OmniHuman，一張圖配上音頻，就能直接生成視頻

視頻鏈接：

https://mp.weixin.qq.com/s/0OYlkcxoFvx6Z9IN-aq90w?token=535033398&lang=zh_CN

更多細(xì)節(jié)和展示效果，請(qǐng)查看：

論文項(xiàng)目主頁(yè)：https://omnihuman-lab.github.io/

技術(shù)報(bào)告：https://arxiv.org/abs/2502.01061

研究問題

基于擴(kuò)散 Transformer（DiT）的視頻生成模型通過(guò)海量視頻 - 文本數(shù)據(jù)訓(xùn)練，已能輸出逼真的通用視頻內(nèi)容。其核心優(yōu)勢(shì)在于從大規(guī)模數(shù)據(jù)中學(xué)習(xí)到的強(qiáng)大通用知識(shí)，使模型在推理時(shí)展現(xiàn)出優(yōu)異的泛化能力。在細(xì)分的人像動(dòng)畫領(lǐng)域，現(xiàn)有技術(shù)主要聚焦兩類任務(wù)：音頻驅(qū)動(dòng)的面部生成（如語(yǔ)音口型同步）和姿勢(shì)驅(qū)動(dòng)的身體運(yùn)動(dòng)合成（如舞蹈動(dòng)作生成）。2023 年后端到端訓(xùn)練方案的突破，使得現(xiàn)有技術(shù)方案通常能夠?qū)哂泄潭ǔ叽绾腿讼癖壤妮斎雸D像生成動(dòng)畫，實(shí)現(xiàn)精準(zhǔn)的口型同步與微表情捕捉。

然而，技術(shù)瓶頸日益凸顯：當(dāng)前模型依賴高度過(guò)濾的訓(xùn)練數(shù)據(jù)（如固定構(gòu)圖、純語(yǔ)音片段），雖保障了訓(xùn)練穩(wěn)定性，卻引發(fā) "溫室效應(yīng)" 模型僅在受限場(chǎng)景（如固定構(gòu)圖、真人形象）中表現(xiàn)良好，難以適應(yīng)不同畫面比例、多樣化風(fēng)格等復(fù)雜輸入。更嚴(yán)重的是，現(xiàn)有數(shù)據(jù)清洗機(jī)制在排除干擾因素時(shí)，往往也丟失了大量有價(jià)值的數(shù)據(jù)，導(dǎo)致生成效果自然度低、質(zhì)量差。

這種困境導(dǎo)致技術(shù)路線陷入兩難：直接擴(kuò)大數(shù)據(jù)規(guī)模會(huì)因訓(xùn)練目標(biāo)模糊（如音頻信號(hào)與肢體運(yùn)動(dòng)的弱相關(guān)性）導(dǎo)致模型性能下降；而維持嚴(yán)格篩選策略又難以突破場(chǎng)景限制。如何既能保留有效運(yùn)動(dòng)模式學(xué)習(xí)，又能從大數(shù)據(jù)規(guī)模學(xué)習(xí)中受益成為當(dāng)前研究重點(diǎn)。

技術(shù)方案

據(jù)技術(shù)報(bào)告，OmniHuman，面向端到端人像驅(qū)動(dòng)任務(wù)中高質(zhì)量數(shù)據(jù)稀缺的問題，采用了一種 Omni-Conditions Training 的混合多模態(tài)訓(xùn)練策略，并相應(yīng)的設(shè)計(jì)了一個(gè) OmniHuman 模型，通過(guò)這種混合多模態(tài)訓(xùn)練的設(shè)計(jì)，可以將多種模態(tài)的數(shù)據(jù)一起加入模型進(jìn)行訓(xùn)練，從而大幅度的增加了人像驅(qū)動(dòng)模型的可訓(xùn)練數(shù)據(jù)，使得模型可以從大規(guī)模數(shù)據(jù)中受益，對(duì)各種類似的輸入形式有了比較好的支持。

相關(guān)熱詞： 數(shù)字人 omni 字節(jié) 圖靈視覺機(jī)器之心

AI「視覺圖靈」時(shí)代來(lái)了！字節(jié)OmniHuman，一張圖配上音頻，就能直接生成視頻
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-07 07:24:18 瀏覽：229次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI「視覺圖靈」時(shí)代來(lái)了！字節(jié)OmniHuman，一張圖配上音頻，就能直接生成視頻 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-07 07:24:18 瀏覽：229次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

AI「視覺圖靈」時(shí)代來(lái)了！字節(jié)OmniHuman，一張圖配上音頻，就能直接生成視頻
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-07 07:24:18 瀏覽：229次