就在剛剛,OpenAI Sora 正式登場。本次發(fā)布會延續(xù)了「短劇」的快節(jié)奏風(fēng)格,全程 20 分鐘左右,由 CEO Sam Altman、Sora 負(fù)責(zé)人 Bill Peebles 等人主持。
OpenAI 在 X 平臺表示,自 2 月份以來,他們一直在構(gòu)建 Sora Turbo,后者是一個速度明顯更快的模型版本,今天也將其作為獨(dú)立產(chǎn)品向 Plus 和 Pro 用戶開放。
有趣的是,由于 Sora 熱度太高,大批用戶涌入體驗(yàn)網(wǎng)站,導(dǎo)致該網(wǎng)站一度崩潰,停止注冊登錄。不給力的服務(wù)也讓 Altman 連連在 X 平臺安撫用戶:「由于需求超出預(yù)期,我們將不得不間歇性地關(guān)閉新用戶注冊,并且生成內(nèi)容的速度會在一段時間內(nèi)減慢。我們正在全力以赴!」附上體驗(yàn)地址:Sora.com
Sora 具體使用細(xì)節(jié),可看以上視頻,由 APPSO 簡單編譯Sora 界面大揭曉,擁有 6 大神級功能,不用學(xué)剪輯了?類似于 Midjourney 的網(wǎng)頁界面,Sora 同樣擁有自己單獨(dú)的用戶界面,用戶不僅能夠整理和瀏覽生成的視頻,還能查看其他用戶的提示詞和精選視頻。
在 「Library」中,用戶可以保存自己喜歡或有用的提示詞,以便未來使用。并且保存的提示詞可以按需查看或修改,對于需要重復(fù)創(chuàng)作相似內(nèi)容的用戶,無疑能大大提高效率。在工作流方面,Sora 的編輯功能是區(qū)別于其它競品的重要亮點(diǎn)。比如說,在 Remix 功能中,用戶可以利用純自然語言提示詞對視頻進(jìn)行編輯,并通過簡單的「strength(強(qiáng)度)」選項(xiàng)和滑塊來控制生成的變化程度。
Re-cut 功能則能智能識別最佳畫面,并支持向任意方向延伸場景。
Storyboard(故事板)功能則類似于視頻編輯器,可以將多個提示詞串聯(lián)在一起,生成一個更長的視頻,輕松處理復(fù)雜的多步驟場景。
搭配 Loop 和 Blend 功能,用戶還能創(chuàng)作出無縫循環(huán)的視頻,并完美融合不同片段,而 Style presets 功能則可以預(yù)設(shè)和調(diào)整生成的風(fēng)格。
在技術(shù)規(guī)格上,Sora 支持 5-20 秒的視頻生成,并兼容 1:1、9:16 等主流寬高比。相比早期版本,現(xiàn)在的生成速度有了顯著提升。
另外,還有幾點(diǎn)細(xì)節(jié)需要注意。Sora Turbo 采用了靈活的積分制定價策略,需要耗費(fèi)的積分因分辨率和持續(xù)時間而異,如果你已經(jīng)是 ChatGPT Plus 和 Pro 會員,那無需額外費(fèi)用就能使用。
比如生成一個 480p、5s 的視頻就需要 25 個積分,如果生成 480p、20s 的視頻則需要 150 個積分。此外,如果你用 Re-cut、Remix、Blend 或者 Loop 這些功能,生成的作品超過了 5 秒鐘,那也得額外扣你的積分,多用多花錢,別超時,超時也花錢。
對于訂閱用戶而言,20 美元的 ChatGPT Plus 計劃提供 50 個優(yōu)先視頻額度(1000 積分),支持最高 720p 分辨率和 5 秒時長。而 200 美元的 ChatGPT Pro 計劃則提供最多 500 個優(yōu)先視頻(10000 個積分),支持最高 1080p 分辨率、20 秒時長、5 個并發(fā)生成和無水印輸出。
OpenAI 還在考慮為不同類型的用戶開發(fā)不同的定價模式,將于明年初推出。對了,Sora 暫不支持 ChatGPT Team、Enterprise 和 Edu 用戶,同時也不向 18 歲以下用戶開放,F(xiàn)階段,用戶可以在所有 ChatGPT 可用的地方訪問 Sora,但英國、瑞士和歐盟等地區(qū)除外。關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
實(shí)測 Sora 暴露最大短板,但這些場景堪比專業(yè)級知名博主 Marques Brownlee 提前一周用上 Sora,并在 YouTube 上分享了他的使用體驗(yàn)。他指出這款產(chǎn)品仍存在一些局限性。在物理模擬方面,模型對物體運(yùn)動的理解還不夠深入,常常出現(xiàn)動作不自然、物體突然消失等問題。特別是在處理帶有腿部運(yùn)動的對象時,經(jīng)常出現(xiàn)前后腿位置混亂的情況,導(dǎo)致動作看起來不自然。
又或者,某些視頻生成結(jié)果看起來像是慢動作,而視頻的其他部分則以正常速度播放,肉眼很容易察覺這種「別扭」。簡言之,Sora 還是沒能解決老毛病,缺乏對物理世界規(guī)律的理解。另外,Sora 沒能解決文字生成的問題,導(dǎo)致經(jīng)常出現(xiàn)文字混亂的現(xiàn)象,而剪輯風(fēng)格、文字滾動條的運(yùn)動、新聞主播風(fēng)格的生成則格外逼真。不過,Sora 也有許多拿捏的場景。
比如說,Sora 在風(fēng)景鏡頭處理方面表現(xiàn)出色,能生成媲美專業(yè)素材的無人機(jī)航拍鏡頭,在卡通和定格動畫風(fēng)格上的表現(xiàn)也差強(qiáng)人意。
性能方面,一個 5 秒的 360p 視頻通常能在 20 秒內(nèi)完成生成。不過,當(dāng)涉及 1080p 或復(fù)雜提示詞時,生成時間可能會延長到幾分鐘,但隨著如今大批用戶的涌入,生成速度也大為緩慢。
不少網(wǎng)友也在第一時間上手體驗(yàn)了 Sora。比如網(wǎng)友 @bennash 想生成一個視頻,渲染了 22 分鐘都沒能成功,甚至該網(wǎng)站一度停止注冊登錄。博主 @nickfloats 給出的評價是,Sora 在將圖像轉(zhuǎn)換成視頻時,雖然某些特定的視覺特效沒有被保留,但整體的轉(zhuǎn)換效果是「清晰和令人滿意的」。
Sora 能成為下一只「金母雞」嗎?Sora System Card 也列出了一些值得關(guān)注的細(xì)節(jié)。OpenAI 官方認(rèn)為,Sora 為能夠理解和模擬現(xiàn)實(shí)世界的模型提供了基礎(chǔ),將是實(shí)現(xiàn)通用人工智能(AGI)的一項(xiàng)重要里程碑。官方博客中提到,Sora 是一種擴(kuò)散模型,它通過從一段看起來像靜態(tài)噪聲的基礎(chǔ)視頻開始,逐步去除噪聲并轉(zhuǎn)變?yōu)樽罱K的視頻。通過同時處理多個幀,模型成功解決了一個難題:即使目標(biāo)暫時脫離視野,也能確保其在視頻中始終保持一致。與 GPT 模型類似,Sora 采用了 Transformer 架構(gòu)。
Sora 使用 DALLE 3 中的標(biāo)注技術(shù),該技術(shù)為視覺訓(xùn)練數(shù)據(jù)生成高度描述性的標(biāo)簽。因此,模型能夠更準(zhǔn)確地根據(jù)用戶的文本指令生成視頻內(nèi)容。除了能夠僅通過文本指令生成視頻外,Sora 還能夠從現(xiàn)有的靜態(tài)圖像生成視頻,準(zhǔn)確地將圖像內(nèi)容進(jìn)行動畫化,并保留細(xì)節(jié)。
為了確保安全部署 Sora,OpenAI 基于 DALLE 在 ChatGPT 和 API 部署中的安全經(jīng)驗(yàn),以及 OpenAI 其他產(chǎn)品(如 ChatGPT)的安全防護(hù)措施進(jìn)行了強(qiáng)化。未經(jīng)他人許可使用他人肖像,并禁止描繪真實(shí)未成年人;禁止創(chuàng)建非法內(nèi)容或侵犯知識產(chǎn)權(quán)的內(nèi)容;禁止生成有害內(nèi)容,例如未經(jīng)同意的親密影像、用于欺凌、騷擾或誹謗的內(nèi)容,或旨在傳播暴力、仇恨或使他人痛苦的內(nèi)容;創(chuàng)建并傳播用于欺詐、詐騙或誤導(dǎo)他人的內(nèi)容。所有 Sora 生成的視頻都帶有 C2PA 元數(shù)據(jù),這些元數(shù)據(jù)能夠標(biāo)識視頻的來源,從而提高透明度,并可用于驗(yàn)證其來源。與此前憑借真實(shí)人像出圈的 Flux 不同,Sora 們對上傳包含人物的內(nèi)容設(shè)定了特別嚴(yán)格的審核標(biāo)準(zhǔn),目前僅作為試點(diǎn)功能提供給少量早期測試者。
大半年前,初試啼聲的 Sora 贏得互聯(lián)網(wǎng)一片喝彩。然而,如果說一年前尚未還能對著一群演示 demo 空喊「現(xiàn)實(shí)不存在了」,那么在國內(nèi)外各類視頻模型的輪番洗禮之下,我們早已養(yǎng)刁的胃口很難再被同樣的產(chǎn)品打動。這種態(tài)度的轉(zhuǎn)變源于一個簡單的事實(shí)。當(dāng) AI 要從「勉強(qiáng)可用」進(jìn)化到「可堪大用」,用戶的期待也隨之升維,從「能否做到」躍遷至「做得多好」。好在 Sora 并未在掌聲中原地踏步,通過與藝術(shù)家的深度合作,他們在工作流程領(lǐng)域做出了顯著的改進(jìn)。Re-cut、Remix、Storyboard 等功能都相當(dāng)實(shí)用。
甲乙方的存在決定了工作流中的溝通永遠(yuǎn)是剛需,AI 能做的是讓這種溝通更有效率,Sora 的價值不在于它能做什么,而在于讓創(chuàng)作者得以抽身于技術(shù)細(xì)節(jié),真正回歸創(chuàng)意的本質(zhì)。與此同時,上周引發(fā)熱議的 200 美元 ChatGPT Pro 訂閱計劃,如今也有了更合理的價格錨點(diǎn),該計劃同樣支持無限制訪問 Sora,這種產(chǎn)品協(xié)同效應(yīng)預(yù)計也將激發(fā)出遠(yuǎn)超預(yù)期的應(yīng)用場景和商業(yè)價值。放眼當(dāng)下,用戶的真金白銀從不作假?伸` AI 交出千萬級月流水的亮眼成績單,這片藍(lán)海的潛力已呼之欲出,對于仍在「燒錢」階段的 OpenAI 來說,Sora 預(yù)計會成為繼 ChatGPT 之后的另一個下金蛋的母雞。當(dāng) Sora 從「能用」「好用」,再到「妙用」,或許未來某一天,我們會發(fā)現(xiàn),真正不存在的,不是現(xiàn)實(shí),而是人類創(chuàng)造力的盡頭。