(來源:MIT Technology Review)
巴黎奧運會剛剛在上個月結束,殘奧會仍在進行中,2028 年洛杉磯夏季奧運會似乎還很遙遠。然而,曾為 LeBron James 和芝加哥公牛隊制作內(nèi)容的體育娛樂電影制作人 Josh Kahn 已經(jīng)在思考更遠的未來:3028 年的洛杉磯奧運會會是什么樣子?
這正是 AI 視頻生成的完美創(chuàng)意實現(xiàn)。今年早些時候,OpenAI 推出的 Sora 使得 AI 視頻生成進入主流。通過在 Runway 或 Synthesia 等生成器中輸入提示,用戶可以在幾分鐘內(nèi)生成相當高分辨率的視頻。與傳統(tǒng)的CGI或動畫創(chuàng)作技術相比,這種方式速度快、成本低,并且技術門檻較低。雖然每一幀畫面可能并不完美例如六指手或物體消失等失真現(xiàn)象很常見但至少在理論上,這種技術有著廣泛的商業(yè)應用潛力。廣告公司、企業(yè)和內(nèi)容創(chuàng)作者可以利用這項技術快速、廉價地制作視頻。
Kahn 一直在嘗試使用 AI 視頻工具,他利用最新版本的 Runway 構想出了未來奧運會的樣子,并在模型中為每個鏡頭輸入一個新的提示。這段視頻(地址 https://youtu.be/nTaTC6AgKeI)時長僅一分多鐘,展示了一個未來感十足的洛杉磯:海平面急劇上升使城市被擠到海岸線邊緣,一座足球場坐落在摩天大樓的頂部,而港口中央的圓頂內(nèi)則設有一個沙灘排球常
這段視頻由麻省理工科技評論獨家分享,更多的是為了展示 AI 目前的可能性,而非城市規(guī)劃藍圖。
“我們在觀看奧運會時,注意到主辦城市在文化敘事上所投入的心血,”Kahn 說。“洛杉磯有一種想象力和敘事文化,并且這種文化為世界其他地方定下了基調(diào)。如果我們能展示一下 1000 年后洛杉磯奧運會的樣子,那該多酷?”
這個視頻最重要的是展示了生成技術對創(chuàng)作者的巨大助力,但它也揭示了當前技術的局限性。雖然 Kahn 沒有透露他為每個鏡頭使用的具體提示內(nèi)容或為了達到理想效果所需的提示次數(shù),但他提醒說,任何希望用 AI 創(chuàng)作出優(yōu)質(zhì)內(nèi)容的人都必須接受不斷試驗的過程。在他的未來項目中,特別具有挑戰(zhàn)性的是讓 AI 模型在建筑設計上突破常規(guī)。比如,水上懸浮的體育場是大多數(shù) AI 模型在訓練數(shù)據(jù)中幾乎沒有見過的。
每個鏡頭都需要新的提示,這也讓視頻難以保持連貫性。顏色、太陽的角度以及建筑物的形狀很難由視頻生成模型保持一致。視頻中也沒有任何人像的特寫鏡頭,因為 Kahn 認為 AI 模型在處理這些方面仍然存在困難。
“目前,這些技術在處理大規(guī)模場景時表現(xiàn)較好,但在人類互動的細節(jié)上還有待改進,”他說。因此,Kahn 認為生成視頻的早期電影應用可能會集中在風景或人群的廣角鏡頭上。
AI 視頻專家 Alex Mashrabov 也同意當前 AI 視頻的缺陷和不足。他去年離開了 Snap 公司生成 AI 部門總監(jiān)的職位,創(chuàng)立了一家新的 AI 視頻公司 Higgsfield AI。他指出,好的對話內(nèi)容很難通過 AI 生成,因為它往往依賴于微妙的面部表情和肢體語言。
一些內(nèi)容創(chuàng)作者可能會因為反復輸入提示以達到理想效果所需的時間,而不愿采用生成視頻技術。
“通常成功率是一比二十,”Mashrabov 說,但需要 50 次甚至 100 次嘗試也并不罕見。
然而,對于許多用途來說,這已經(jīng)足夠好了。Mashrabov 表示,他已經(jīng)看到像 Temu 這樣的供應巨頭開始越來越多地使用 AI 生成視頻廣告。在中國等商品生產(chǎn)國,視頻生成器需求旺盛,用于快速制作產(chǎn)品的直接廣告。即使一個 AI 模型可能需要大量提示才能生成一個可用的廣告,用真人、攝像機和設備來拍攝可能會昂貴百倍。他認為,隨著技術的逐步改進,這類應用可能會成為生成視頻技術大規(guī)模應用的首批案例。
“雖然這條路還很長,但我對現(xiàn)階段已有的部分應用充滿信心,”Mashrabov 說。“我們正在找出生成 AI 已經(jīng)表現(xiàn)不錯的領域。”
原文鏈接:
https://www.technologyreview.com/2024/09/03/1103516/what-this-futuristic-olympics-video-says-about-the-state-of-generative-ai/