Sora來了,但沒有完全來。在12天連續(xù)發(fā)布會(huì)活動(dòng)的第三天,OpenAI正式面向大眾發(fā)布了AI視頻大模型Sora Turbo,最高支持生成20秒視頻,僅為初次公布Sora時(shí)宣傳時(shí)長(zhǎng)的三分之一。更離譜的是,不是任何用戶都可以立即體驗(yàn)Sora Turbo,該應(yīng)用仍處于小范圍測(cè)試階段。
在Sora之前,海外已有AI公司開發(fā)出了視頻大模型,但直到今年2月Sora首次亮相,視頻大模型行業(yè)才真正進(jìn)入黃金發(fā)展期。然而帶動(dòng)視頻大模型快速發(fā)展的Sora,卻似乎掉隊(duì)了。
不說我們可能較為陌生的海外,僅僅是國(guó)內(nèi)市場(chǎng),就涌現(xiàn)了不下二十款A(yù)I視頻大模型,互聯(lián)網(wǎng)巨頭騰訊、阿里巴巴、字節(jié)跳動(dòng)等,更是每一家都推出了AI視頻大模型。站在行業(yè)的角度,AI視頻大模型賦予了大模型理解和重構(gòu)真實(shí)世界的能力,站在用戶的角度,AI視頻大模型則給了我們發(fā)揮想象力的無(wú)限可能。
與面向泛用場(chǎng)景的大語(yǔ)言模型不同,視頻大模型的使用場(chǎng)景相對(duì)更加專業(yè),因而現(xiàn)階段基本需要付費(fèi)才能隨心生成視頻。免費(fèi)用戶只能領(lǐng)取系統(tǒng)的積分或每日贈(zèng)送的次數(shù)生成視頻,而且可能無(wú)法體驗(yàn)部分高階功能。正因如此,不關(guān)注AI大模型的小伙伴可能并不清楚國(guó)內(nèi)有哪些視頻大模型。
接下來,小雷就盤點(diǎn)六款目前國(guó)內(nèi)知名度較高的AI大模型,并分析其功能特性,或許未來它們就會(huì)成為你手中將想法、靈感轉(zhuǎn)化為現(xiàn)實(shí)的工具。
國(guó)產(chǎn)視頻大模型搶跑,Sora成了Follower?
國(guó)內(nèi)視頻大模型眾多,功能和體驗(yàn)也有不小的差異,經(jīng)過數(shù)月時(shí)間的提升,大多能夠識(shí)別人類自然語(yǔ)言,而非依靠限定詞生成內(nèi)容。這是視頻大模型的一小步,卻是互聯(lián)網(wǎng)行業(yè)的一大步,理解自然語(yǔ)言,才擁有將我們想法或小說中的內(nèi)容轉(zhuǎn)化成影像的能力。
至于視頻大模型該怎么選,別急,跟隨小雷一起看看互聯(lián)網(wǎng)巨頭們的視頻大模型表現(xiàn)如何,或許你的心中就會(huì)有答案。
1、可靈:行業(yè)先行者,體驗(yàn)出眾。
訓(xùn)練視頻大模型需要大量視頻資源,視頻平臺(tái)具備先天優(yōu)勢(shì),Sora發(fā)布后僅4個(gè)月,快手科技旗下的AI團(tuán)隊(duì)就推出了視頻大模型可靈,如今更是進(jìn)化到了1.5版本。就小雷的體驗(yàn)而言,可靈在國(guó)內(nèi)眾多視頻大模型中,體驗(yàn)足以位列前三。
可靈支持文生視頻和圖片生成視頻(也可以加入文字描述)兩種模式,而且可以調(diào)整創(chuàng)意想象力和創(chuàng)意相關(guān)性?伸`1.5大模型免費(fèi)用戶使用文生視頻功能,最高可生成5秒高品質(zhì)視頻(1.5版本不支持生成標(biāo)準(zhǔn)品質(zhì)視頻,1.0版本可生成10秒標(biāo)準(zhǔn)品質(zhì)視頻),使用圖生視頻功能,則可以生成最高10秒標(biāo)準(zhǔn)品質(zhì)或5秒高品質(zhì)視頻,且支持運(yùn)鏡調(diào)節(jié)。
小雷以“寧?kù)o的海灘,滿月高懸在天空,微風(fēng)吹動(dòng)著海邊的椰子樹,發(fā)出嘩啦啦的聲音,一只小貓咪慵懶地躺在沙灘上,舔舐著前腿上的毛發(fā)”為描述語(yǔ)生成了一段視頻。具體結(jié)果如下,無(wú)論是舔舐毛發(fā)還是風(fēng)吹動(dòng)椰子樹,細(xì)節(jié)豐富程度都非常高,唯一較為明顯的漏洞可能在于生成的結(jié)果是在白天,而非小雷描述的夜晚。
(圖源:可靈生成)
作為國(guó)內(nèi)最早一批AI視頻大模型,可靈的表現(xiàn)極為出色,提供的功能選項(xiàng)較為豐富。期待可靈能夠盡快推出生成視頻更長(zhǎng)的版本,達(dá)到微短劇的要求,幫助微短劇作者創(chuàng)作視頻,降低微短劇的制作成本,進(jìn)而提升可靈的實(shí)用價(jià)值。
2、即夢(mèng):語(yǔ)言解析能力強(qiáng),可惜缺乏靈動(dòng)感。
快手推出可靈后,抖音不甘示弱,也推出了視頻大模型即夢(mèng)。
除了文生視頻和圖生視頻外,即夢(mèng)還加入了對(duì)口型功能,即導(dǎo)入圖片、視頻后,再上傳文本或錄音,即夢(mèng)便可調(diào)整視頻。即夢(mèng)發(fā)布時(shí)間雖晚一些,但更新迭代速度極快,至今官網(wǎng)已提供視頻1.2、視頻2.0、視頻2.0 Pro三個(gè)版本可用。
需要注意的是,該大模型注冊(cè)即送60積分,視頻1.2大模型生成4/6/8秒視頻分別需要4/6/8積分,視頻2.0模型生成5秒鐘視頻需要5積分,視頻2.0 Pro模型生成視頻則需要20積分。
小雷以相同的描述語(yǔ),使用即夢(mèng)視頻2.0 Pro模型生成了一段視頻,質(zhì)量也相當(dāng)不錯(cuò),小雷描述的場(chǎng)景基本展現(xiàn)了出來。不過這段視頻也不算完美,例如貓咪的動(dòng)作過于單調(diào)和僵硬,缺少靈動(dòng)感,樹葉也沒有隨風(fēng)而動(dòng)等。
(圖源:即夢(mèng)生成)
即夢(mèng)對(duì)于自然語(yǔ)言的理解能力,在小雷看來比可靈還要更高一些,描述語(yǔ)中的元素基本具備,但生成的視頻質(zhì)量略遜于可靈。
3、混元:功能有待豐富,成長(zhǎng)空間較大。
說完了快手、抖音兩大短視頻巨頭,自然也不能落下騰訊公司。騰訊日前推出了混元視頻大模型,并在騰訊元寶App和網(wǎng)頁(yè)端上線。
騰訊混元視頻大模型現(xiàn)階段僅支持文生視頻,每日可免費(fèi)生成4次標(biāo)準(zhǔn)品質(zhì)和2次高品質(zhì)視頻。小雷也使用騰訊混元大模型生成了一段視頻,太大的月亮造成了虛假感,貓咪舔舐毛發(fā)的動(dòng)作更是滿滿的違和感,椰子樹距離過遠(yuǎn),細(xì)節(jié)不夠豐富。
(圖源:混元大模型生成)
或許是因?yàn)檎Q生時(shí)間太短,騰訊混元大模型生成的視頻質(zhì)量欠佳,明顯不如可靈和即夢(mèng)。不過擁有國(guó)內(nèi)互聯(lián)網(wǎng)巨頭騰訊作為后盾,相信經(jīng)過幾次迭代升級(jí)后,該大模型生成的視頻質(zhì)量能夠媲美可靈和即夢(mèng)。
4、Vidu:功能豐富,運(yùn)鏡自然。
作為北京數(shù)生科技與清華大學(xué)聯(lián)合研發(fā)的AI視頻大模型,Vidu可能沒有騰訊、字節(jié)跳動(dòng)那樣強(qiáng)大的財(cái)力,但大模型的表現(xiàn)毫不遜色。該模型也推出了1.5版本,支持文生視頻和圖生視頻,還支持上傳同一主體不同角度的圖片,從而生成更具真實(shí)感的立體畫面。需要注意的是,該大模型免費(fèi)用戶僅能生成720P視頻。
在實(shí)測(cè)中,Vidu生成的視頻質(zhì)量高不下于可靈和即夢(mèng),運(yùn)鏡的自然流暢度比可靈還要強(qiáng)一些。細(xì)節(jié)方面也非常豐富,海水、椰子樹、風(fēng)等元素均有展現(xiàn),仔細(xì)看會(huì)發(fā)現(xiàn)遠(yuǎn)處還有身影靠近。唯一的漏洞在于沙灘的質(zhì)感不足,一般只有剛剛落潮的海灘才會(huì)有類似的情況。
(圖源:Vidu生成)
Vidu的表現(xiàn)已相當(dāng)不錯(cuò),開放API,探索商業(yè)模式后,大概率可以獲得不少投資,Vidu可以利用這筆投資購(gòu)買芯片和視頻資源。擁有足夠的視頻資源用于訓(xùn)練大模型和算力支持,Vidu才能加快前進(jìn)的腳步。
5、清影:同具清華血脈,與Vidu有差距。
智譜清言的前身是清華大學(xué)計(jì)算機(jī)系知識(shí)工程研究室團(tuán)隊(duì),與Vidu算得上同出一門,甚至更具正統(tǒng)性。
智譜清言開發(fā)的AI視頻大模型清影功能極為豐富,支持文生視頻和圖生視頻,其中文生視頻可調(diào)節(jié)視頻風(fēng)格、情感氛圍、運(yùn)鏡方式等參數(shù),圖生視頻則最高支持16秒4K 60幀視頻生成,是小雷體驗(yàn)過的視頻大模型中,生成視頻最長(zhǎng)的。
然而,清影生成的視頻卻令小雷大失所望,別的就不說了,我的貓呢???而且畫面幾乎看不出來這是一段視頻,小雷差點(diǎn)以為我生成的是圖片。
(圖源:清影生成)
與同出一門的Vidu相比,清影的問題十分明顯,對(duì)于自然語(yǔ)言的理解能力可能存在問題,有待進(jìn)一步提升。
6、PixVerse:畫面唯美,動(dòng)作卻很僵硬。
對(duì)于愛詩(shī)科技,國(guó)內(nèi)普通網(wǎng)友可能比較陌生,但其創(chuàng)始人王長(zhǎng)虎曾擔(dān)任微軟亞洲研究院主管研究員,后續(xù)跳槽到字節(jié)跳動(dòng),先后擔(dān)任了人工智能技術(shù)總監(jiān)、視覺技術(shù)負(fù)責(zé)人等職位,主導(dǎo)了字節(jié)跳動(dòng)視覺大模型的基礎(chǔ)建設(shè)工作。
愛詩(shī)科技的視頻大模型PixVerse功能同樣豐富,支持特效、風(fēng)格、比例等元素的設(shè)置和調(diào)整,還能預(yù)設(shè)角色,生成視頻最長(zhǎng)為8秒。不過注冊(cè)贈(zèng)送的積分只有90,每日再贈(zèng)送30積分,生成5秒視頻需要30積分,8秒視頻則為60積分。
從生成的視頻來看,PixVerse的特性與其名字一樣充滿唯美感,畫面色調(diào)十分討喜小貓的毛發(fā)細(xì)節(jié)和背后的水面的波紋都很到位。
(圖源:PixVerse生成)
與即夢(mèng)相同,PixVerse生成視頻的問題也出在貓咪身上,小貓的動(dòng)作過于刻意,反而出現(xiàn)了僵硬感。瑕不掩瑜,PixVerse的表現(xiàn)非常出色,讓我們看到了愛詩(shī)科技的實(shí)力。
視頻大模型大戰(zhàn),細(xì)節(jié)決定成敗
數(shù)月時(shí)間,國(guó)內(nèi)AI企業(yè)在視頻大模型領(lǐng)域已邁出了從無(wú)到有的關(guān)鍵一步,現(xiàn)在正從有到強(qiáng)進(jìn)發(fā)。就小雷的體驗(yàn)而言,可靈、即夢(mèng)、Vidu、PixVerse均表現(xiàn)不錯(cuò),并列第一梯隊(duì),騰訊混元視頻模型位列第二梯隊(duì),清影則位列第三梯隊(duì)。
因使用場(chǎng)景、風(fēng)格要求等細(xì)節(jié)的不同,視頻大模型的輸出結(jié)果可能會(huì)存在一定的差異,小雷的體驗(yàn)不能表現(xiàn)出這些視頻大模型的全部實(shí)力。
即便是表現(xiàn)較好的大模型,在細(xì)節(jié)方面也存在一定的漏洞,除了上文頻頻提到的貓咪動(dòng)作僵硬問題,還有一個(gè)非常明顯且普遍的情況,即沙灘的沙子不會(huì)因?yàn)樨堖涞膭?dòng)作而流動(dòng)。AI視頻大模型雖在不斷升級(jí)迭代,并取得了不菲的成果,但細(xì)節(jié)方面依然有不少進(jìn)步的空間。
(圖源:豆包AI生成)
AI視頻大模型的升級(jí)重點(diǎn)圍繞自然語(yǔ)言解析能力、畫面細(xì)節(jié)打磨和運(yùn)鏡、時(shí)長(zhǎng)三大方面,這三大核心因素也決定了AI視頻大模型未來能夠取得的成果。唯有能夠理解人類自然語(yǔ)言,才能真正讓每一個(gè)人都能利用AI視頻大模型盡情釋放想象力,畫面和運(yùn)鏡的升級(jí)可以提高視頻質(zhì)量,時(shí)長(zhǎng)足夠的前提下,AI視頻大模型方能成為用戶手中創(chuàng)作微短視頻的助手。
另外,盡管AI視頻大模型普遍采用收費(fèi)方案,但價(jià)格過于昂貴,以至于付費(fèi)用戶有限,再加上訓(xùn)練成本和推理成本居高不下,大多數(shù)AI視頻大模型公司的處境并不樂觀。主攻視頻生成領(lǐng)域的AI公司,要么與B端客戶聯(lián)合,針對(duì)定制場(chǎng)景打造專屬版本,要么就要加速升級(jí)迭代,滿足C端用戶的需求,尋找盈利點(diǎn)。
近期亞馬遜云科技、谷歌、OpenAI等企業(yè)相繼發(fā)布了AI視頻大模型,預(yù)計(jì)明年還會(huì)有更多AI公司推出視頻大模型,整個(gè)行業(yè)的競(jìng)爭(zhēng)將愈發(fā)激烈。這些已走在前面的企業(yè),應(yīng)當(dāng)盡快利用自身優(yōu)勢(shì)創(chuàng)造盈利點(diǎn),避免在更卷的環(huán)境中被淘汰。
25年1月7日,CES(國(guó)際消費(fèi)電子展) 2025 即將盛大開幕,雷科技報(bào)道團(tuán)蓄勢(shì)待發(fā),即將飛赴美國(guó)拉斯維加斯現(xiàn)場(chǎng)全程報(bào)道,敬請(qǐng)關(guān)注。