如同ChatGPT在2023年帶來的震撼,2024年的AI圈,到處喧囂著Sora的故事。
近期,號稱研發(fā)時間比Sora更早的「Vidu」文生視頻大模型亮相,這是由生數(shù)科技聯(lián)合清華大學(xué)發(fā)布的中長時長、高一致性、高動態(tài)性視頻大模型。
輿論立即非常熱烈,因為從公布的案例視頻效果來看,Vidu已經(jīng)可以支持一鍵生成達(dá)16秒、分辨率達(dá)1080P的高清視頻內(nèi)容。Vidu不僅能夠模擬真實物理世界,還擁有想象力生成,具備多鏡頭、時空一致性等特點(diǎn)。如果這些特點(diǎn)在公測時能呈現(xiàn),那無疑已經(jīng)比肩Sora的水平。
實際上,Vidu并非是第一個號稱國產(chǎn)Sora產(chǎn)品,還有北大的Open Sora、字節(jié)的Dreamina、騰訊的VideoCrafter2、右腦科技的Vega AI、愛詩科技的PixVerse、MewXAI的藝映AI、智象未來的Pixeling,以及NeverEnds和Morph Studio,還有昆侖萬維、萬興科技公司推出的視覺大模型,共計10余款文生視頻產(chǎn)品。
圖片來源:智東西
這其中大部分是依賴算法圖片轉(zhuǎn)視頻,真正文生視頻大模型為底座的少之又少。
Sora為何成為AI圈明珠
為何國內(nèi)的AI領(lǐng)域,Sora再次復(fù)刻了百模大戰(zhàn)的盛況?
這可能源于一個共識,Sora具有跨時代的意義。它結(jié)合了大語言模型LLM(ChatGPT、Claude和文心一言)和圖形模型diffusion(midjourney、Stable diffusion),能完美理解文字,然后根據(jù)文字生成圖片到視頻。
這張圖深刻解析了Sora的原理,左腦負(fù)責(zé)語言/邏輯/記憶,LLM大語言模型復(fù)刻了這一模式,右腦負(fù)責(zé)形象/創(chuàng)意/美術(shù),Unconditional Diffusion擴(kuò)散模型更擅長于此。將二者模型結(jié)合,誕生了從文生視頻的大模型Sora。
所以可以說,Sora才是代表真正的仿人腦智能,其他模型只是模仿了一部分。通過這一原理,我們就辨別很多偽Sora了。
比如美圖公司的文生視頻產(chǎn)品Whee,做出來的圖片簡單動一下,3秒都不到,大概了采用了StableDiffusion的模型SDXL,而不是Diffusion與Transformer融合的架構(gòu)U-ViT。前者很難做出來超過10秒的視頻,文字理解能力也不會優(yōu)秀,模型決定了天花板。
所以Vidu迅速出圈的原因在于,其核心技術(shù)U-ViT架構(gòu)。該技術(shù)于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個Diffusion與Transformer融合的架構(gòu)。
這個架構(gòu)的高成長性,意味著兩三年內(nèi),Sora制作AI短劇/電影/廣告宣傳片等等,都將在幾個小時內(nèi)完成,
Sora已經(jīng)驗證了這種可能性。新媒體公司Shy Kids 團(tuán)隊僅用 3 人的團(tuán)隊,利用Sora在大約 1.5 到 2 周內(nèi)制作了《Air Head》 。Patrick 認(rèn)為目前階段的Sora,對畫面連續(xù)性,以及鏡頭運(yùn)動的理解,都還存在一定問題; 而且這部電影是720P,也利用了AE特效軟件進(jìn)行編輯。
但3 到 20 秒,渲染時間在 10 到 20 分鐘范圍內(nèi),以及極大地提升了效率?苹秒娪熬拗啤栋⒎策_(dá)》花了8年時間,從拍攝到制作完成,未來可能一倆月內(nèi)就行實現(xiàn),內(nèi)容制作成本被數(shù)以萬計的降低。
中國工程院院士,阿里云創(chuàng)始人王堅說道,只說它可能會影響短視頻等行業(yè),那我覺得是對它極大的羞辱,它的意義遠(yuǎn)超這種事情。就像是原子彈剛剛爆炸時一樣,沒有人能想到這個東西后來可以作為核電站來發(fā)電,還可以實現(xiàn)小型化,還有很多別的用處。
當(dāng)然,Sora還處于嬰幼兒期。 我認(rèn)為我們現(xiàn)在在Sora的發(fā)展進(jìn)度就像是新視覺模型的GPT-1.我們對Sora的前景持樂觀態(tài)度,認(rèn)為它將取代人類的某些能力。從長遠(yuǎn)來看,我們相信Sora有朝一日將超越人類的智慧,成為世界模型的代表。 Sora核心創(chuàng)始人timi在最近接受采訪時說到。
清華北大+創(chuàng)業(yè)公司發(fā)力Sora
目前國內(nèi)的Sora創(chuàng)業(yè)大潮中,學(xué)術(shù)機(jī)構(gòu)+創(chuàng)業(yè)公司的組合表現(xiàn),更為亮眼。
清華這只Vidu團(tuán)隊,是在2023年3月,團(tuán)隊開源了全球第一個基于融合的大模型UniDiffuser,首個驗證了大規(guī)模訓(xùn)練和擴(kuò)展的規(guī)律。但囿于所需算例成本太高,團(tuán)隊一時間的主要精力,重點(diǎn)轉(zhuǎn)到了文生圖,文生3D領(lǐng)域。今年1月,團(tuán)隊實現(xiàn)4秒視頻的生成,可以達(dá)到Pika、Runway的效果。
轉(zhuǎn)折點(diǎn)是2024年2月份,Sora的發(fā)布,震撼了圈內(nèi)外人士。團(tuán)隊重回文生時評領(lǐng)域,第一時間緊急啟動攻關(guān),也向海淀區(qū)領(lǐng)導(dǎo)進(jìn)行了匯報,當(dāng)時得到了很多支持。
此后兩個月時間內(nèi),從1月的4秒,3月底突破到8秒,4月底,Vidu對外展示的是16秒的成果,直接超越了國內(nèi)的絕大部分Sora模型,達(dá)到了Sora的同等水平。
Vidu案例視頻
相比Vidu的突然炸裂出圈,北大的Open Sora則是從出生起,就敲鑼打鼓地誕生。
Open-Sora Plan由北大-兔展AIGC聯(lián)合實驗室共同發(fā)起,目前推出了 1.0 版本的模型,同時發(fā)布了一個名為MagicTime項目,從Time-lapse 視頻中學(xué)習(xí)真實世界的物理知識。
這個初始團(tuán)隊一共13人:帶隊的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計算機(jī)學(xué)院教授、博導(dǎo)田永鴻等人 ,合作的創(chuàng)業(yè)公司是兔展公司。
由于缺乏足夠的資源,團(tuán)隊采用開源生態(tài)共建,AnimateDiff大神也參與其中。
目前國內(nèi)視頻生成領(lǐng)域,知名的產(chǎn)品是愛詩科技的PixVerse,這家公司剛剛完成A2輪融資,上個月宣布完成A1輪融資,核心創(chuàng)始人是從字節(jié)跳動離職創(chuàng)業(yè),主要解決了視頻運(yùn)鏡控制和一致性的問題,很多實測效果超過Pika和runway等競爭對手。
多模態(tài)大模型似乎不是PixVerse重點(diǎn)發(fā)力方向,算力需求沒有Sora那么高。所以目前看,國內(nèi)實際應(yīng)用中,PixVerse用戶已經(jīng)在88天內(nèi),超過一千萬次視頻生成。
還有一家公司值得一提,4月28日,萬興公司發(fā)布 天幕 音視頻大模型,號稱依托15億用戶行為數(shù)據(jù)和百億本土化音視頻數(shù)據(jù),可通過文生視頻能力,實現(xiàn)不同風(fēng)格、豐富場景及主題的連貫性,一鍵生成時長率先支持60秒+。60秒創(chuàng)造國內(nèi)文生視頻時長的記錄了。
英雄不問出處,畢竟從OpenAI的不足百人,Midjourney的11人創(chuàng)業(yè)團(tuán)隊看,團(tuán)隊規(guī)模不是AI創(chuàng)業(yè)成功的關(guān)鍵,核心還是首席科學(xué)家的團(tuán)隊沖鋒能力。這也是為何國產(chǎn)Sora創(chuàng)業(yè)公司能突然涌現(xiàn)的核心原因。
當(dāng)然,算力資源還是個大門檻。據(jù)Vidu朱軍表示, 當(dāng)時訓(xùn)練UniDiffuser第一個版本時,用到的算力是去年年中訓(xùn)練同樣模型的近40倍,團(tuán)隊半年時間將算力需求降低40倍。 這也是其重要技術(shù)突破。
大廠不掀文生視頻的門簾
在轟轟烈烈的AGI創(chuàng)業(yè)浪潮中,BAT是2023年的大模型創(chuàng)業(yè)明星。但在Sora這波中,百度、阿里、騰訊、字節(jié)等大公司卻顯得有些安靜,風(fēng)頭有些被創(chuàng)業(yè)公司搶去。
作為All in AGI動作最迅猛的百度,發(fā)布過一款名為 UniVG 的視頻生成模型。用戶只需提供一張圖片或一段文字,就能生成一段流暢的視頻,雖然與早期的AI視頻生成工具相比,UniVG所生成的每一幀畫面都更加穩(wěn)定、連貫,但實際上,這款模型還是更注重算法,而非Sora的多模態(tài)大模型路線。
在百度2023年Q4及全年業(yè)績會上,百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏表示,多模態(tài)或多模態(tài)的融合,比如文字到視頻,其實是非常重要的一個未來基礎(chǔ)模型開發(fā)的方向,這是AGI的一個必要方向,百度也已經(jīng)在這些領(lǐng)域進(jìn)行投資,并且也會在未來繼續(xù)進(jìn)行投資。
這方面,字節(jié)的動作相對穩(wěn)健一點(diǎn),字節(jié)跳動早在年初就發(fā)布了超高清文生視頻模型MagicVideo-V2。據(jù)悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。
字節(jié)的文生視頻產(chǎn)品是Dreammina,目前文生視頻已經(jīng)處于內(nèi)測階段,這也是大廠中唯一已經(jīng)公布的Sora產(chǎn)品。AI鯨選社 社群的朋友田際云對此進(jìn)行了內(nèi)測:
附評價:1、Dreamina提示詞 一個工程師,坐在辦公桌前寫代碼 ,還不錯;2、對漢字理解很不足,以為 寫 就是在本子上寫字,其實是在電腦上輸入輸出。3、Dreamina使用這幾天的總結(jié):當(dāng)代元素和人物的生成比古代元素與人物要精準(zhǔn)些,國外元素生成比國內(nèi)元素要好很多。底層模型不言而喻了。
而阿里云旗下魔搭社區(qū)(Model-Scope)上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺空間這3個子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。
阿里目前最火的視頻模型,應(yīng)該是最近剛在通義上線的EMO,這款讓圖片說話唱歌的AI產(chǎn)品,屬于算法定義的產(chǎn)品,目前已經(jīng)在通義的APP上可以使用。
騰訊推出的視頻模型是Mira,目前的模型可以生成分辨率為128x80的長達(dá) 20 秒的視頻和分辨率為384x240的長達(dá) 10 秒的視頻。同時提供了數(shù)據(jù)標(biāo)注和模型訓(xùn)練的工具。
所以目前來看,大廠有一些基本的視頻大模型,但還沒有公布真正的對標(biāo)Sora大模型。這也是奇怪的地方,大廠不缺人才、算力以及資金,在最能露臉的文生視頻領(lǐng)域,動作卻比較遲緩,任由創(chuàng)業(yè)公司露臉。
當(dāng)然,大廠也不是完全沒有動作,投資也是一種參與手段。
Vidu背后的生數(shù)科技正式成立于2023年3月,由瑞萊智慧RealAI、螞蟻和百度風(fēng)投聯(lián)合孵化。在2023年6月,公司完成近億元人民幣天使輪融資,由螞蟻集團(tuán)領(lǐng)投,BV百度風(fēng)投、卓源資本跟投,投后估值達(dá)1億美元。在在天使+輪,錦秋基金獨(dú)家投資了該公司,錦秋基金的前身是字節(jié)戰(zhàn)投部門。