在生成式AI領(lǐng)域不斷發(fā)展的今天,給AI一張靜態(tài)圖片,它就能創(chuàng)造出一個可交互的3D世界,真可謂是“開局一張圖,剩下全靠編”。
當(dāng)?shù)貢r間12月2號,由“AI教母”李飛飛(Fei-Fei Li)創(chuàng)立的初創(chuàng)公司W(wǎng)orld Labs發(fā)布了令人眼前一亮的“空間智能”(spatial intelligence)技術(shù),即一套能夠?qū)螐堨o態(tài)圖片轉(zhuǎn)化為可交互3D場景的AI系統(tǒng)。
比如下面這樣:
短視頻平臺很火的“希區(qū)柯克式變焦”(dolly zoom)也是信手捏來:
用戶還可以通過鍵盤和鼠標(biāo)在網(wǎng)頁上實(shí)時控制場景:
它還能模擬景深,調(diào)節(jié)景深效果,讓背景物體產(chǎn)生自然的虛化效果,營造出專業(yè)的攝影效果:
可惜的是,World Labs目前只向公眾發(fā)布了關(guān)于該技術(shù)的博客,人們能夠體驗(yàn)的功能極為有限,而且并未放出任何代碼和模型。至于如何嘗鮮,World Labs現(xiàn)在開放了Waitlist申請,感興趣的可以在文末找到鏈接。
當(dāng)然,這并不妨礙技術(shù)創(chuàng)新本身帶來的震撼。隨著它未來面向公眾開放,一旦用戶體驗(yàn)優(yōu)秀,不僅標(biāo)志著生成式AI向3D領(lǐng)域的重要突破,更預(yù)示著數(shù)字內(nèi)容創(chuàng)作方式即將迎來革命性變革。
這套系統(tǒng)最引人注目的特點(diǎn)在于其獨(dú)特的交互性和可修改性。根據(jù)World Labs網(wǎng)站提供的演示界面和描述,用戶僅需一張普通照片,就能生成一個可以自由探索的3D環(huán)境。雖然生成的場景略顯卡通風(fēng)格,分辨率和細(xì)節(jié)也有瑕疵,但已經(jīng)展現(xiàn)出令人印象深刻的真實(shí)感和穩(wěn)定性。
與市面上其他AI系統(tǒng)相比,World Labs展示的技術(shù)優(yōu)勢顯然是3D空間生成。它在博客中表示,大多數(shù)生成模型都會預(yù)測像素,而預(yù)測 3D 場景有許多好處:
持久現(xiàn)實(shí):3D場景一旦生成,它就會一直存在。即使你把視線移開然后又回來,場景也不會改變。
實(shí)時控制:3D場景生成后,用戶可以在其中實(shí)時移動。你可以仔細(xì)觀察花朵的細(xì)節(jié),也可以窺視藏在角落里的物體。
正確的幾何形狀:生成的世界遵循 3D 幾何的基本物理規(guī)則。它們兼具真實(shí)感和深度感,與某些 AI 生成視頻的夢幻感形成了鮮明對比。
傳統(tǒng)的生成式AI工具往往只能創(chuàng)建2D內(nèi)容,如圖片或視頻,而World Labs選擇直接在3D空間中進(jìn)行生成,這種方式不僅提供了更好的控制性和一致性,更確保了場景在生成后保持穩(wěn)定,并遵循基本的物理法則。
這意味著生成的3D世界具有真實(shí)的空間感和深度感,避免了其他AI模型常見的“健忘”問題。比如初創(chuàng)公司Decart的Minecraft模擬世界模型Oasis就存在分辨率低下、容易“遺忘”場景布局等問題。
World Labs的系統(tǒng)還提供了豐富的互動特效和動畫功能。用戶可以改變物體的顏色、調(diào)整場景的光照效果,甚至能夠?qū)⒔?jīng)典藝術(shù)作品轉(zhuǎn)化為可探索的3D空間。
比如,他們成功地將梵高的知名畫作《夜晚露天咖啡座》中的場景擴(kuò)展成了一個完整的街區(qū)環(huán)境。
這種技術(shù)還能與其他AI工具完美結(jié)合,創(chuàng)作者可以先使用文本生成圖像,再將其轉(zhuǎn)化為3D場景,繼承不同圖像生成模型的獨(dú)特風(fēng)格。在博客中,他們使用的許多圖片都來自于FLUX、Ideogram 和Midjourney 等生成式AI工具:
當(dāng)然,目前這項(xiàng)技術(shù)仍有改進(jìn)空間。比如,用戶的移動范圍仍然受限于較小的區(qū)域,一旦超出邊界就會遇到限制。實(shí)測下來,目前用戶只能在生成的3D空間中挪動幾步,就會碰上所謂的“空氣墻”。
有時還會出現(xiàn)渲染錯誤,例如物體之間會以不自然的方式混合在一起。不過,World Labs表示這些只是“早期預(yù)覽”,他們正在努力提升生成世界的規(guī)模和真實(shí)度,并探索新的交互方式。
從商業(yè)角度來看,World Labs展現(xiàn)出強(qiáng)勁的發(fā)展勢頭。公司由李飛飛聯(lián)合創(chuàng)辦,成立之初就獲得了來自A16z、Intel Capital、AMD Ventures和埃里克施密特(Eric Schmidt)等投資者共計(jì)2.3億美元的風(fēng)險投資,估值已超過10億美元。公司計(jì)劃在2025年推出首款正式產(chǎn)品。
World Labs表示,其愿景不僅限于創(chuàng)建互動場景,他們計(jì)劃開發(fā)一系列工具,服務(wù)于藝術(shù)家、設(shè)計(jì)師、開發(fā)者、電影制作人和工程師等專業(yè)人士。
公司聯(lián)合創(chuàng)始人賈斯汀約翰遜(Justin Johnson)在接受采訪時表示:“傳統(tǒng)的虛擬互動世界開發(fā)需要投入數(shù)億美元和大量時間。我們的世界模型技術(shù)將讓創(chuàng)作者不只是得到一張圖片或一段視頻,而是能夠獲得一個完全模擬的、充滿活力的、可交互的3D世界!
目前World Labs已經(jīng)對公眾開放了Waitlist候補(bǔ)名單申請,不過作為開發(fā)和測試的一部分,有的創(chuàng)作者已經(jīng)受邀并將其整合到了現(xiàn)有的工作流程中。
例如,內(nèi)容創(chuàng)作者埃里克索洛里奧(Eric Solorio)發(fā)現(xiàn),這項(xiàng)技術(shù)完美地填補(bǔ)了他創(chuàng)作過程中的空白,可以“讓角色布置和精確的鏡頭調(diào)度變得更容易”。從電影制作到游戲開發(fā),從模擬器到各類數(shù)字內(nèi)容創(chuàng)作,World Labs的技術(shù)都可能帶來革命性的改變。
隨著技術(shù)的不斷完善和應(yīng)用場景的拓展,World Labs希望重新定義數(shù)字世界的創(chuàng)作方式。這不僅是AI技術(shù)的一次重要突破,更預(yù)示著數(shù)字內(nèi)容創(chuàng)作即將迎來一個全新的時代。或許在不久的將來,從單張圖片到沉浸式3D世界的轉(zhuǎn)變,可能就像現(xiàn)在的文字生成圖片一樣簡單而自然。
參考資料:
https://www.worldlabs.ai/blog
https://techcrunch.com/2024/12/02/world-labs-ai-can-generate-interactive-3d-scenes-from-a-single-photo/
https://x.com/theworldlabs/status/1863617989549109328
Waitlist表格:
https://docs.google.com/forms/d/e/1FAIpQLSf9jHsaDq1IwM_FADQP0Gbd82tbW4CBOI5YfUAdPfqrFrWEeA/viewform