衡宇 西風(fēng) 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
就在剛剛,李飛飛空間智能首個(gè)項(xiàng)目突然發(fā)布:
僅憑借1張圖,就能生成一個(gè)3D游戲世界的AI系統(tǒng)!
重點(diǎn)在于,生成的3D世界具有交互性。
能夠像玩游戲那樣,自由地移動(dòng)相機(jī)來(lái)探索這個(gè)3D世界,淺景深、希區(qū)柯克變焦等操作均可行。
除了這張圖本體,可探索的3D世界里,所有東西都是AI生成的:
這些場(chǎng)景在瀏覽器中實(shí)時(shí)渲染,配備了可控的攝像機(jī)效果和可調(diào)節(jié)的模擬景深(DoF)。
你甚至可以改變其中物體顏色,動(dòng)態(tài)調(diào)整背景光影,在場(chǎng)景中插入其他對(duì)象。
此外,之前大多數(shù)生成模型預(yù)測(cè)的是像素,而這個(gè)AI系統(tǒng)直接預(yù)測(cè)3D場(chǎng)景。
所以場(chǎng)景在你移開(kāi)視線再回來(lái)時(shí)不會(huì)發(fā)生變化,并且遵循基本的3D幾何物理規(guī)則。
網(wǎng)友們直接炸開(kāi)鍋,評(píng)論區(qū)“難以置信”一詞直接刷屏。
其中不乏Shopify創(chuàng)始人Tobi Lutke等知名人士點(diǎn)贊:
還有不少網(wǎng)友認(rèn)為這直接為VR打開(kāi)了新世界。
官方則表示“這僅僅是3D原生生成AI未來(lái)的一個(gè)縮影”:
我們正在努力盡快將這項(xiàng)技術(shù)交到用戶手中!
李飛飛本人也第一時(shí)間分享了這項(xiàng)成果并表示:
無(wú)論怎么理論化這個(gè)想法,用語(yǔ)言很難描述通過(guò)一張照片或一句話生成的3D場(chǎng)景互動(dòng)的體驗(yàn),希望大家喜歡。
目前候補(bǔ)名單申請(qǐng)已開(kāi)啟,有內(nèi)容創(chuàng)作者已經(jīng)用上了。
羨慕的口水不爭(zhēng)氣地從眼角落了下來(lái)。
Beyond the input image官方博文表示,今天,World labs邁出了通往空間智能的第一步:
發(fā)布一個(gè)從單張圖片生成3D世界的AI系統(tǒng)。Beyond the input image, all is generated。
而且是輸入任何圖片。
而且是能夠互動(dòng)的3D世界用戶可以通過(guò)W/A/S/D鍵來(lái)控制上下左右視角,或者用鼠標(biāo)拖動(dòng)畫(huà)面來(lái)逛這個(gè)生成的世界。
官網(wǎng)博文中放了很多個(gè)可以試玩的demo。
這次真的推薦大家都去試玩一下,上手體驗(yàn)和看視頻or動(dòng)圖的感受非常的不一樣。
(直通車(chē)按慣例,放在文末)
好,問(wèn)題來(lái)了,這個(gè)AI系統(tǒng)生成的3D世界還有什么值得探究的細(xì)節(jié)之處?
攝影機(jī)效果World Labs表示,一旦生成,這個(gè)3D世界就會(huì)在瀏覽器中實(shí)時(shí)渲染,給人的感覺(jué)跟在看一個(gè)虛擬攝像頭似的。
而且,用戶能夠精準(zhǔn)地控制這個(gè)攝像頭。
所謂“精準(zhǔn)控制”,有2種玩法,
一是能夠模擬景深效果,也就是只能清晰對(duì)焦距離相機(jī)一定距離的物體。
二是能模擬滑動(dòng)變焦(Dolly Zoom),也就是電影拍攝技巧中非常經(jīng)典的希區(qū)柯克變焦。
它的特點(diǎn)是“鏡頭中的主體大小不變,而背景大小改變”。
很多驢友去西藏、新疆玩兒的時(shí)候都希望用希區(qū)柯克變焦拍視頻,有很強(qiáng)的視覺(jué)沖擊力。
在World Labs展示中,效果如下(不過(guò)在這個(gè)玩法里,沒(méi)辦法控制視角):
3D效果World Labs表示,大多數(shù)生成模型預(yù)測(cè)的都是像素,與它們不同,咱這個(gè)AI預(yù)測(cè)的是3D場(chǎng)景。
官方博文羅列了三點(diǎn)好處:
第一,持久現(xiàn)實(shí)。
一旦生成一個(gè)世界,它就會(huì)一直存在。
不會(huì)因?yàn)槟憧聪騽e的視角,再看回來(lái),原視角的場(chǎng)景就會(huì)改變了。
第二,實(shí)時(shí)控制。
生成場(chǎng)景后,用戶可以通過(guò)鍵盤(pán)或鼠標(biāo)控制,實(shí)時(shí)在這個(gè)3D世界暢游移動(dòng)。
你甚至可以仔細(xì)觀察一朵花的細(xì)節(jié),或者在某個(gè)地方暗中觀察,用上帝視角注意這個(gè)世界的一舉一動(dòng)。
第三,遵循正確的幾何規(guī)則。
這個(gè)AI系統(tǒng)生成的世界,是遵守3D集合物理基本規(guī)則的。
某些AI生成的視頻,雖然效果很夢(mèng)核,但可沒(méi)有咱的這種深度的真實(shí)感喲(doge)。
官方博文中還寫(xiě)道,創(chuàng)造一個(gè)可視化3D場(chǎng)景,最簡(jiǎn)單的辦法是繪制深度圖。
圖中每個(gè)像素的顏色,都是由它和攝像頭的距離來(lái)決定的。
當(dāng)然了,用戶可以使用3D場(chǎng)景結(jié)構(gòu)來(lái)構(gòu)建互動(dòng)效果
單擊就能與場(chǎng)景互了,包括但不限于突然給場(chǎng)景打個(gè)聚光燈。
動(dòng)畫(huà)效果?
那也是so easy啦。
走進(jìn)繪畫(huà)世界團(tuán)隊(duì)還玩兒了一把,以“全新的方式”體驗(yàn)一些經(jīng)典的藝術(shù)作品。
全新,不僅在于可互動(dòng)的交互方式,還在于就靠輸入進(jìn)去的那一張圖,就能補(bǔ)全原畫(huà)里沒(méi)有的部分。
然后變成3D世界。
這是梵高的《夜晚露天咖啡座》:
這是愛(ài)德華霍普的《夜行者》:
創(chuàng)造性的工作流團(tuán)隊(duì)表示,3D世界生成可以非常自然地和其它AI工具相結(jié)合。
這讓創(chuàng)作者們可以用他們已經(jīng)用順手的工具感受新的工作流體驗(yàn)。
舉個(gè)栗子:
可以先用文生圖模型,從文本世界來(lái)到圖像世界。
因?yàn)椴煌P陀懈髯陨瞄L(zhǎng)的風(fēng)格特點(diǎn),3D世界可以把這些風(fēng)格遷徙、繼承過(guò)來(lái)。
在同一prompt下,輸入不同風(fēng)格的文生圖模型生成的圖片,可以誕生不同的3D世界:
World Labs和空間智能“World Labs”公司,由斯坦福大學(xué)教授、AI教母李飛飛在今年4月創(chuàng)立。
這也是她被曝出的首次創(chuàng)業(yè)。
而她的創(chuàng)業(yè)方向是一個(gè)新概念空間智能,即:
視覺(jué)化為洞察;看見(jiàn)成為理解;理解導(dǎo)致行動(dòng)。
在李飛飛看來(lái),這是“解決人工智能難題的關(guān)鍵拼圖”。
只用了3個(gè)月時(shí)間,公司就突破了10億美元估值,成為新晉獨(dú)角獸。
公開(kāi)資料顯示,a16z、NEA和Radical Ventures是領(lǐng)投方,Adobe、AMD、Databricks,以及老黃的英偉達(dá)也都在投資者之列。
個(gè)人投資者中也不乏大佬:Karpathy、Jeff Dean、Hinton……
今年5月,李飛飛有一場(chǎng)公開(kāi)的15分鐘TED演講。
她洋洋灑灑,分享了對(duì)于空間智能的更多思考,要點(diǎn)包括:
視覺(jué)能力被認(rèn)為引發(fā)了寒武紀(jì)大爆發(fā)一個(gè)動(dòng)物物種大量進(jìn)入化石記錄的時(shí)期。最初是被動(dòng)體驗(yàn),簡(jiǎn)單讓光線進(jìn)入的定位,很快變得更加主動(dòng),神經(jīng)系統(tǒng)開(kāi)始進(jìn)化……這些變化催生了智能。
多年來(lái),我一直在說(shuō)拍照和理解不是一回事。今天,我想再補(bǔ)充一點(diǎn):僅僅看是不夠的?,是為了行動(dòng)和學(xué)習(xí)。
如果我們想讓AI超越當(dāng)前能力,我們不僅想要能夠看到和說(shuō)話的AI,我們還想要能夠行動(dòng)的AI?臻g智能的最新里程碑是,教計(jì)算機(jī)看到、學(xué)習(xí)、行動(dòng),并學(xué)習(xí)看到和行動(dòng)得更好。
隨著空間智能的加速進(jìn)步,一個(gè)新時(shí)代在這個(gè)良性循環(huán)中正在我們眼前展開(kāi)。這種循環(huán)正在催化機(jī)器人學(xué)習(xí),這是任何需要理解和與3D世界互動(dòng)的具身智能系統(tǒng)的關(guān)鍵組成部分。
據(jù)報(bào)道,該公司的目標(biāo)客戶包括視頻游戲開(kāi)發(fā)商和電影制片廠。除了互動(dòng)場(chǎng)景之外,World Labs還計(jì)劃開(kāi)發(fā)一些對(duì)藝術(shù)家、設(shè)計(jì)師、開(kāi)發(fā)人員、電影制作人和工程師等專業(yè)人士有用的工具。
如今伴隨著空間智能首個(gè)項(xiàng)目的發(fā)布,他們要做的事也逐漸具象化了起來(lái)。
但World Labs表示,目前發(fā)布的只是一個(gè)“早期預(yù)覽”:
我們正在努力改進(jìn)我們生成的世界的規(guī)模和逼真度,并嘗試新的方式讓用戶與之互動(dòng)。
參考鏈接:
[1]https://www.worldlabs.ai/blog
[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN
[3]https://x.com/theworldlabs/status/1863617989549109328