Sora來了,但沒有完全來。在12天連續(xù)發(fā)布會活動的第三天,OpenAI正式面向大眾發(fā)布了AI視頻大模型Sora Turbo,最高支持生成20秒視頻,僅為初次公布Sora時宣傳時長的三分之一。更離譜的是,不是任何用戶都可以立即體驗Sora Turbo,該應用仍處于小范圍測試階段。
在Sora之前,海外已有AI公司開發(fā)出了視頻大模型,但直到今年2月Sora首次亮相,視頻大模型行業(yè)才真正進入黃金發(fā)展期。然而帶動視頻大模型快速發(fā)展的Sora,卻似乎掉隊了。
不說我們可能較為陌生的海外,僅僅是國內市場,就涌現了不下二十款AI視頻大模型,互聯網巨頭騰訊、阿里巴巴、字節(jié)跳動等,更是每一家都推出了AI視頻大模型。站在行業(yè)的角度,AI視頻大模型賦予了大模型理解和重構真實世界的能力,站在用戶的角度,AI視頻大模型則給了我們發(fā)揮想象力的無限可能。
與面向泛用場景的大語言模型不同,視頻大模型的使用場景相對更加專業(yè),因而現階段基本需要付費才能隨心生成視頻。免費用戶只能領取系統的積分或每日贈送的次數生成視頻,而且可能無法體驗部分高階功能。正因如此,不關注AI大模型的小伙伴可能并不清楚國內有哪些視頻大模型。
接下來,小雷就盤點六款目前國內知名度較高的AI大模型,并分析其功能特性,或許未來它們就會成為你手中將想法、靈感轉化為現實的工具。
國產視頻大模型搶跑,Sora成了Follower?
國內視頻大模型眾多,功能和體驗也有不小的差異,經過數月時間的提升,大多能夠識別人類自然語言,而非依靠限定詞生成內容。這是視頻大模型的一小步,卻是互聯網行業(yè)的一大步,理解自然語言,才擁有將我們想法或小說中的內容轉化成影像的能力。
至于視頻大模型該怎么選,別急,跟隨小雷一起看看互聯網巨頭們的視頻大模型表現如何,或許你的心中就會有答案。
1、可靈:行業(yè)先行者,體驗出眾。
訓練視頻大模型需要大量視頻資源,視頻平臺具備先天優(yōu)勢,Sora發(fā)布后僅4個月,快手科技旗下的AI團隊就推出了視頻大模型可靈,如今更是進化到了1.5版本。就小雷的體驗而言,可靈在國內眾多視頻大模型中,體驗足以位列前三。
可靈支持文生視頻和圖片生成視頻(也可以加入文字描述)兩種模式,而且可以調整創(chuàng)意想象力和創(chuàng)意相關性?伸`1.5大模型免費用戶使用文生視頻功能,最高可生成5秒高品質視頻(1.5版本不支持生成標準品質視頻,1.0版本可生成10秒標準品質視頻),使用圖生視頻功能,則可以生成最高10秒標準品質或5秒高品質視頻,且支持運鏡調節(jié)。
小雷以“寧靜的海灘,滿月高懸在天空,微風吹動著海邊的椰子樹,發(fā)出嘩啦啦的聲音,一只小貓咪慵懶地躺在沙灘上,舔舐著前腿上的毛發(fā)”為描述語生成了一段視頻。具體結果如下,無論是舔舐毛發(fā)還是風吹動椰子樹,細節(jié)豐富程度都非常高,唯一較為明顯的漏洞可能在于生成的結果是在白天,而非小雷描述的夜晚。
(圖源:可靈生成)
作為國內最早一批AI視頻大模型,可靈的表現極為出色,提供的功能選項較為豐富。期待可靈能夠盡快推出生成視頻更長的版本,達到微短劇的要求,幫助微短劇作者創(chuàng)作視頻,降低微短劇的制作成本,進而提升可靈的實用價值。
2、即夢:語言解析能力強,可惜缺乏靈動感。
快手推出可靈后,抖音不甘示弱,也推出了視頻大模型即夢。
除了文生視頻和圖生視頻外,即夢還加入了對口型功能,即導入圖片、視頻后,再上傳文本或錄音,即夢便可調整視頻。即夢發(fā)布時間雖晚一些,但更新迭代速度極快,至今官網已提供視頻1.2、視頻2.0、視頻2.0 Pro三個版本可用。
需要注意的是,該大模型注冊即送60積分,視頻1.2大模型生成4/6/8秒視頻分別需要4/6/8積分,視頻2.0模型生成5秒鐘視頻需要5積分,視頻2.0 Pro模型生成視頻則需要20積分。
小雷以相同的描述語,使用即夢視頻2.0 Pro模型生成了一段視頻,質量也相當不錯,小雷描述的場景基本展現了出來。不過這段視頻也不算完美,例如貓咪的動作過于單調和僵硬,缺少靈動感,樹葉也沒有隨風而動等。
(圖源:即夢生成)
即夢對于自然語言的理解能力,在小雷看來比可靈還要更高一些,描述語中的元素基本具備,但生成的視頻質量略遜于可靈。
3、混元:功能有待豐富,成長空間較大。
說完了快手、抖音兩大短視頻巨頭,自然也不能落下騰訊公司。騰訊日前推出了混元視頻大模型,并在騰訊元寶App和網頁端上線。
騰訊混元視頻大模型現階段僅支持文生視頻,每日可免費生成4次標準品質和2次高品質視頻。小雷也使用騰訊混元大模型生成了一段視頻,太大的月亮造成了虛假感,貓咪舔舐毛發(fā)的動作更是滿滿的違和感,椰子樹距離過遠,細節(jié)不夠豐富。
(圖源:混元大模型生成)
或許是因為誕生時間太短,騰訊混元大模型生成的視頻質量欠佳,明顯不如可靈和即夢。不過擁有國內互聯網巨頭騰訊作為后盾,相信經過幾次迭代升級后,該大模型生成的視頻質量能夠媲美可靈和即夢。
4、Vidu:功能豐富,運鏡自然。
作為北京數生科技與清華大學聯合研發(fā)的AI視頻大模型,Vidu可能沒有騰訊、字節(jié)跳動那樣強大的財力,但大模型的表現毫不遜色。該模型也推出了1.5版本,支持文生視頻和圖生視頻,還支持上傳同一主體不同角度的圖片,從而生成更具真實感的立體畫面。需要注意的是,該大模型免費用戶僅能生成720P視頻。
在實測中,Vidu生成的視頻質量高不下于可靈和即夢,運鏡的自然流暢度比可靈還要強一些。細節(jié)方面也非常豐富,海水、椰子樹、風等元素均有展現,仔細看會發(fā)現遠處還有身影靠近。唯一的漏洞在于沙灘的質感不足,一般只有剛剛落潮的海灘才會有類似的情況。
(圖源:Vidu生成)
Vidu的表現已相當不錯,開放API,探索商業(yè)模式后,大概率可以獲得不少投資,Vidu可以利用這筆投資購買芯片和視頻資源。擁有足夠的視頻資源用于訓練大模型和算力支持,Vidu才能加快前進的腳步。
5、清影:同具清華血脈,與Vidu有差距。
智譜清言的前身是清華大學計算機系知識工程研究室團隊,與Vidu算得上同出一門,甚至更具正統性。
智譜清言開發(fā)的AI視頻大模型清影功能極為豐富,支持文生視頻和圖生視頻,其中文生視頻可調節(jié)視頻風格、情感氛圍、運鏡方式等參數,圖生視頻則最高支持16秒4K 60幀視頻生成,是小雷體驗過的視頻大模型中,生成視頻最長的。
然而,清影生成的視頻卻令小雷大失所望,別的就不說了,我的貓呢???而且畫面幾乎看不出來這是一段視頻,小雷差點以為我生成的是圖片。
(圖源:清影生成)
與同出一門的Vidu相比,清影的問題十分明顯,對于自然語言的理解能力可能存在問題,有待進一步提升。
6、PixVerse:畫面唯美,動作卻很僵硬。
對于愛詩科技,國內普通網友可能比較陌生,但其創(chuàng)始人王長虎曾擔任微軟亞洲研究院主管研究員,后續(xù)跳槽到字節(jié)跳動,先后擔任了人工智能技術總監(jiān)、視覺技術負責人等職位,主導了字節(jié)跳動視覺大模型的基礎建設工作。
愛詩科技的視頻大模型PixVerse功能同樣豐富,支持特效、風格、比例等元素的設置和調整,還能預設角色,生成視頻最長為8秒。不過注冊贈送的積分只有90,每日再贈送30積分,生成5秒視頻需要30積分,8秒視頻則為60積分。
從生成的視頻來看,PixVerse的特性與其名字一樣充滿唯美感,畫面色調十分討喜小貓的毛發(fā)細節(jié)和背后的水面的波紋都很到位。
(圖源:PixVerse生成)
與即夢相同,PixVerse生成視頻的問題也出在貓咪身上,小貓的動作過于刻意,反而出現了僵硬感。瑕不掩瑜,PixVerse的表現非常出色,讓我們看到了愛詩科技的實力。
視頻大模型大戰(zhàn),細節(jié)決定成敗
數月時間,國內AI企業(yè)在視頻大模型領域已邁出了從無到有的關鍵一步,現在正從有到強進發(fā)。就小雷的體驗而言,可靈、即夢、Vidu、PixVerse均表現不錯,并列第一梯隊,騰訊混元視頻模型位列第二梯隊,清影則位列第三梯隊。
因使用場景、風格要求等細節(jié)的不同,視頻大模型的輸出結果可能會存在一定的差異,小雷的體驗不能表現出這些視頻大模型的全部實力。
即便是表現較好的大模型,在細節(jié)方面也存在一定的漏洞,除了上文頻頻提到的貓咪動作僵硬問題,還有一個非常明顯且普遍的情況,即沙灘的沙子不會因為貓咪的動作而流動。AI視頻大模型雖在不斷升級迭代,并取得了不菲的成果,但細節(jié)方面依然有不少進步的空間。
(圖源:豆包AI生成)
AI視頻大模型的升級重點圍繞自然語言解析能力、畫面細節(jié)打磨和運鏡、時長三大方面,這三大核心因素也決定了AI視頻大模型未來能夠取得的成果。唯有能夠理解人類自然語言,才能真正讓每一個人都能利用AI視頻大模型盡情釋放想象力,畫面和運鏡的升級可以提高視頻質量,時長足夠的前提下,AI視頻大模型方能成為用戶手中創(chuàng)作微短視頻的助手。
另外,盡管AI視頻大模型普遍采用收費方案,但價格過于昂貴,以至于付費用戶有限,再加上訓練成本和推理成本居高不下,大多數AI視頻大模型公司的處境并不樂觀。主攻視頻生成領域的AI公司,要么與B端客戶聯合,針對定制場景打造專屬版本,要么就要加速升級迭代,滿足C端用戶的需求,尋找盈利點。
近期亞馬遜云科技、谷歌、OpenAI等企業(yè)相繼發(fā)布了AI視頻大模型,預計明年還會有更多AI公司推出視頻大模型,整個行業(yè)的競爭將愈發(fā)激烈。這些已走在前面的企業(yè),應當盡快利用自身優(yōu)勢創(chuàng)造盈利點,避免在更卷的環(huán)境中被淘汰。
25年1月7日,CES(國際消費電子展) 2025 即將盛大開幕,雷科技報道團蓄勢待發(fā),即將飛赴美國拉斯維加斯現場全程報道,敬請關注。