展會信息港展會大全

OpenAI最大“期貨”Sora開放使用,面臨近20個競爭對手挑戰(zhàn)
來源:互聯網   發(fā)布日期:2024-12-11 13:15:04   瀏覽:247次  

導讀:當地時間周一,OpenAI宣布正式向用戶開放AI視頻生成模型Sora,此時距離OpenAI首次公開展示Sora已過去大約10個月。據介紹,Sora將于當天晚些時候向美國及其他市場的ChatGPT付費用戶開放Sora Turbo版本,這是一個生成速度更快的版本!癝ora為模型理解和模擬現實世界提供了一個基礎,我們相信這個能力將是實現AGI(通用人工智能)路上的一個重要里程碑!監(jiān)penAI表示。有用戶則在 ......

OpenAI最大“期貨”Sora開放使用,面臨近20個競爭對手挑戰(zhàn)

當地時間周一,OpenAI宣布正式向用戶開放AI視頻生成模型Sora,此時距離OpenAI首次公開展示Sora已過去大約10個月。據介紹,Sora將于當天晚些時候向美國及其他市場的ChatGPT付費用戶開放Sora Turbo版本,這是一個生成速度更快的版本。

“Sora為模型理解和模擬現實世界提供了一個基礎,我們相信這個能力將是實現AGI(通用人工智能)路上的一個重要里程碑!監(jiān)penAI表示。有用戶則在社交媒體上表示,Sora的服務器已經太過繁忙,出現無法注冊的情況。

此次Sora新增了一些功能,讓用戶有更多工具來控制視頻。不過,此次公開給付費用戶使用的Sora Turbo版本生成時長最多20秒,而非Sora首次公開展示時的1分鐘。記者了解到,視頻時長較短還是視頻模型面臨的一個難點,其背后與視頻延續(xù)性能力不足有關。

Sora新增功能

此次Sora展示了一些新功能,包括用戶可使用Remix工具可以替換、刪除或重新設計視頻中的元素。此外,用戶還可以找到最佳的幀并在此基礎上擴展成一個場景,還可以在時間軸上編輯視頻的獨特序列、使用Loop工具剪輯并要求Sora生成無縫銜接的重復視頻、將兩個視頻合并為一個無縫銜接的視頻、創(chuàng)建獨特風格。

這些新功能讓Sora在用戶手中變得更加可控。據OpenAI展示的案例,用戶可以要求視頻中的門打開、將圖書館替換成宇宙飛船;將一個飄雪的視頻和一個花朵降落的視頻合并在一起,就會出現花朵與雪花同時降落、最后變成只有花朵降落的一段視頻,過渡自然;將花朵開放閉合的視頻重復,花朵將會持續(xù)重復開放閉合的動作,將翻滾海浪的視頻重復,則會出現一個不斷涌動的海浪,這些重復的視頻不會出現視頻間機械拼接的跡象;將大象和犀牛行走的畫面換個風格,則能變成黑白風格,或者變成紙工藝大象和犀牛行走的畫面,或者更換他們所處的背景。

OpenAI最大“期貨”Sora開放使用,面臨近20個競爭對手挑戰(zhàn)

OpenAI表示,Sora Turbo還是一個早期版本,它可以通過輸入文本、圖像和視頻轉化為視頻輸出,視頻分辨率可達1080p,最長生成時長是20秒。技術上,Sora是一個Diffusion(擴散)模型,被賦予了許多幀的預見能力,OpenAI表示,現在已經解決了一個具有挑戰(zhàn)性的問題,即當某個主題暫時消失在畫面中時,視頻主題依然不變。

Sora與GPT模型類似,也采用了Transformer架構。此外,Sora還使用了DALLE 3的重現技術,該技術能為視覺訓練數據生成高度描述性的詞,使模型能更貼合用戶的文字指令。OpenAI表示,當Sora基于一個靜止圖像生成視頻時,能精確地將圖像內容動畫化,并關注里面的小細節(jié),也能獲取現有的視頻并填充視頻中缺失的幀。

“正如我們在2月的技術報告中描述的,Sora從大語言模型中獲得靈感,這些模型通過在互聯網規(guī)模的數據基礎上訓練來獲得能力。大語言模型的成功一定程度上得益于用token(詞元)統(tǒng)一了各種數據形式,在Sora中,我們也考慮了視覺生成模型如何繼承以上優(yōu)點,類似于大語言模型預測下一個token,Sora能生成visual patches(視覺補。N覀兿葘⒁曨l壓縮到一個較低維的空間,將其分解為時空補丁,再將視頻轉化為補丁!本图夹g原理,OpenAI解釋。

OpenAI還介紹了Sora訓練的數據來源。來源包括公開可用的數據,主要來自機器學習數據集和通過網絡爬蟲技術收集的數據,此外,OpenAI還與Shutterstock$Pond5等廠商合作以獲取非公開數據,并用到了來自AI訓練者、紅隊測試成員和員工的反饋數據。

當地時間周一晚些時候,Sora Turbo版本已開放給付費用戶使用。目前已有OpenAI員工在社交媒體上展示了自己創(chuàng)作的視頻,例如生成古人騎馬打戰(zhàn)、古代黑白街景的20秒視頻,這些畫面看起來有足夠的細膩度,也有特寫、中景和遠景的鏡頭切換,不過,仍有一些不合理之處。

以古人騎馬打戰(zhàn)的視頻為例,一開始畫面還比較合理,人物身著古代服飾并舉著劍,馬匹奔跑前進,不過,到第11秒時突然有一個人無緣由地從馬上摔下,畫面上還出現了一個人騎馬往另一個方向走。

OpenAI最大“期貨”Sora開放使用,面臨近20個競爭對手挑戰(zhàn)

藝術家Boris Eldagsen也在社交媒體上展示了他此前測試Sora時制作的視頻。視頻中梳著油頭的人物一邊跳舞一邊用量尺丈量東西,鏡頭語言豐富,量尺則出現了各種姿態(tài),有時會長在人物的身上,該藝術家該視頻有“對商業(yè)術語的卡夫卡式解構”。

也有用戶在社交平臺上分享了他如何使用Sora將兩個視頻融合在一起的功能。該用戶用了一個俯拍城堡的視頻和一個人物在林間奔跑的視頻,融合后,可以看到鏡頭下降到一條林間小路上,遠處看得到城堡,近處看得到人物在奔跑,過渡真實,不足之處則在于人物的身高一開始與樹木幾乎齊平,然后迅速下降,有墜落的感覺。

OpenAI最大“期貨”Sora開放使用,面臨近20個競爭對手挑戰(zhàn)

Sora與其他模型差距多大?

推出這些方便用戶編輯的工具背后,OpenAI表示,今年2月以來,OpenAI就與來自60多個國家的數百名視覺藝術家、設計師和電影制作人合作,以便獲得關于如何改進視頻、幫助創(chuàng)意行業(yè)專業(yè)人士創(chuàng)作的反饋。不過,記者留意到,此前Sora展示的視頻出現了對物理規(guī)律的違背,例如酒杯摔下并不會碎,而此次Sora更新并未專門談及在遵循物理規(guī)律方面的改進。

時長上看,相比今年2月Sora首次公開展示時的1分鐘生成視頻時長,此次公開給付費用戶使用的Sora Turbo版本可生成的最長時長則是20秒。能使用Sora Turbo的用戶是ChatGPT Plus訂閱用戶和ChatGPT Pro訂閱用戶,其中ChatGPT Plus訂閱用戶可以每月生成50個低分辨率視頻,單個視頻時長最長5秒,只有ChatGPT Pro訂閱用戶才能無限制生成高分辨率視頻,時長最長20秒。而ChatGPT Pro的訂閱費頗高,達到每月200美元。

此次Sora Turbo沒有開放很長的生成時長,且收費較高,可能是算力成本的因素。一名視頻生成業(yè)內人士告訴記者,Sora此前公開展示后之所以沒有很快開放公眾使用,一個可能原因就是推理成本太高,視頻生成模型不能跟文本模型一樣公開給用戶免費使用,同時,視頻生成模型訓練成本也比文本模型高數倍以上,商業(yè)模式還待完全打通。

此外,記者了解到,視頻生成模型要生成效果較好、時長較長的視頻,技術上也存在卡點!皩⒁曨l生成時長做長是一個純算力和數據問題,當時長增加一倍時,算力呈現平方級上升,所以將時長做太長并不劃算。如果不考慮算力原因,視頻時長可以做得很長,但視頻效果退化會越來越嚴重,業(yè)界主流的模型時長都是五六秒。”另有視頻大模型技術人員告訴記者。

Sora今年2月公開展示Sora后,在業(yè)界引起了視頻大模型熱潮。從Sora的競爭產品上看,據12月初騰訊混元團隊展示的一張文生視頻模型效果評估表,包括騰訊混元視頻生成、Luma1.6、GEN-3 alpha和2個國內模型在內,這5個模型的效果總體評分都在24%~42%之間,得分都不算高。Sora與業(yè)界已有的其他產品之間,差距有多大?

“我看了一些Sora的視頻案例,效果比較好,但貌似與其他視頻模型之間的距離也沒有大到代際差距!毙吕宋⒉┬录夹g研發(fā)負責人張俊林告訴記者,目前視頻模型的難點還是長視頻的一致性,就是時間長了之后如何讓角色和背景表現一致。據不完全統(tǒng)計,目前已發(fā)布或已在內測的國內外視頻生產產品已有Sora、Gen3、Luma、Pika、即夢、可靈、混元、通義萬相、video-1、清影、PixVerse、Vidu等近20個。

從技術路線上看,多名視頻模型業(yè)內人士都告訴記者,包括Sora在內,業(yè)內的視頻生成路徑基本收斂到Tranformer+Diffusion,表現為這兩種架構融合的DiT架構或類DiT架構。有業(yè)內人士認為,沿著這條路徑走下去,要做出效果更好的模型需要比拼資金實力,除此之外,算法本身不算成熟,也有繼續(xù)創(chuàng)新的空間。

(本文來自第一財經)

贊助本站

相關內容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港