展會(huì)信息港展會(huì)大全

接力李飛飛 谷歌虛擬世界生成器上線 將和馬斯克聯(lián)手做AI游戲?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-05 19:17:33   瀏覽:78次  

導(dǎo)讀:《科創(chuàng)板日?qǐng)?bào)》12月5日訊(編輯 宋子喬) 前有“AI教母”李飛飛,后有谷歌DeepMind,大模型的熱度還在,大世界模型又成為焦點(diǎn)。繼李飛飛旗下企業(yè)World Labs展示一圖生成3D世界后,當(dāng)?shù)貢r(shí)間12月4日,谷歌DeepMind發(fā)布了大型基礎(chǔ)世界模型Genie 2,可通過單張圖片或文字描述生成3D場(chǎng)景。相關(guān)論文時(shí)間僅相隔一天,兩個(gè)AI工具的功能非常相似,核心在于:1、一張圖生成可交互3D場(chǎng)景: ......

《科創(chuàng)板日?qǐng)?bào)》12月5日訊(編輯 宋子喬) 前有“AI教母”李飛飛,后有谷歌DeepMind,大模型的熱度還在,大世界模型又成為焦點(diǎn)。

繼李飛飛旗下企業(yè)World Labs展示一圖生成3D世界后,當(dāng)?shù)貢r(shí)間12月4日,谷歌DeepMind發(fā)布了大型基礎(chǔ)世界模型Genie 2,可通過單張圖片或文字描述生成3D場(chǎng)景。

接力李飛飛 谷歌虛擬世界生成器上線 將和馬斯克聯(lián)手做AI游戲?

接力李飛飛 谷歌虛擬世界生成器上線 將和馬斯克聯(lián)手做AI游戲?

相關(guān)論文

時(shí)間僅相隔一天,兩個(gè)AI工具的功能非常相似,核心在于:

1、一張圖生成可交互3D場(chǎng)景:據(jù)谷歌介紹,用戶只需提供一張圖片(由Imagen 3生成)和文字描述,Genie 2就能生成一個(gè)可交互的3D場(chǎng)景,并以720p的清晰度呈現(xiàn)。通過鼠標(biāo)和鍵盤控制,用戶可以在其中自由探索長(zhǎng)達(dá)1分鐘,大多數(shù)能穩(wěn)定運(yùn)行10到20秒。

2、空間記憶能力:Genie 2生成的內(nèi)容能讓當(dāng)用戶在虛擬環(huán)境中移動(dòng)時(shí),即使某些區(qū)域暫時(shí)不在視野范圍內(nèi),系統(tǒng)也能保持這些區(qū)域的一致性。World Labs同樣可以做到這一點(diǎn),即使你把視線移開然后又回來,已生成的3D場(chǎng)景也不會(huì)改變。

3、擴(kuò)圖能力:Genie 2能在過程中實(shí)時(shí)創(chuàng)造出符合邏輯的新場(chǎng)景內(nèi)容,并且可以在長(zhǎng)達(dá)一分鐘的時(shí)間內(nèi)保持整個(gè)世界的一致性。這指該AI工具的可預(yù)測(cè)3D場(chǎng)景能力,World Labs也能讓AI工具僅憑部分圖片就能“擴(kuò)圖”,想象出整個(gè)3D場(chǎng)景。

不過,似乎李飛飛的模型才做到了真正理解物理世界。據(jù)機(jī)器之心報(bào)道,普林斯頓AI創(chuàng)新中心創(chuàng)始人、主任,終身教授王夢(mèng)迪表示:“李飛飛的World Labs和谷歌的Genie2看上去都是從一張圖片生成可以交互的三維場(chǎng)景,但有本質(zhì)區(qū)別。Genie2還是video diffusion(視頻擴(kuò)散),每一幀的生成都是pixel prediction(像素預(yù)測(cè)),并通過額外的用戶輸入的guidance(引導(dǎo))來影響下一幀的概率分布。而飛飛的World Labs是更進(jìn)一步挖掘世界的物理本質(zhì):從圖片出發(fā),估計(jì)圖片中不同景物的深度和相對(duì)關(guān)系,生成了更加物理世界的3D環(huán)境建模,不僅僅是可互動(dòng)視頻”。

另外,一個(gè)細(xì)微區(qū)別是,World Labs將應(yīng)用領(lǐng)域側(cè)重于影視制作,而谷歌側(cè)重于游戲制作。Genie 2發(fā)布后,DeepMind CEO Demis Hassabis直接邀請(qǐng)馬斯克一起制作AI游戲,馬斯克回復(fù):Cool。馬斯克此前聲稱,xAI將開辦一家AI游戲工作室。

重視游戲場(chǎng)景并不意外,DeepMind也承認(rèn)了這點(diǎn):“從我們?cè)缙谂cAtari游戲的合作,到AlphaGo和AlphaStar等突破性成果,再到我們與游戲開發(fā)者合作研究通用智能體,游戲一直是我們研究的重心!

作為Youtube的母公司,谷歌還擁有Youtube里上億小時(shí)的游戲視頻數(shù)據(jù)。

值得注意的是,Genie 2為代表的大世界模型能快速創(chuàng)建無限多樣的、可操控的3D環(huán)境,這些3D環(huán)境可用于訓(xùn)練和評(píng)估具身智能體。這意味著其能為具身智能研究提供豐富的虛擬訓(xùn)練數(shù)據(jù)。

谷歌研究人員Jack Parker-Holder給出了兩個(gè)實(shí)例,其中,一張圖上有一個(gè)紅門和一個(gè)藍(lán)門,向模型輸入不同的語言指令,可以生成不同的3D場(chǎng)景,走向紅門或藍(lán)門。

在更復(fù)雜的三門場(chǎng)景中,Genie 2依然很好地理解了指令并生成了研究人員想要的3D動(dòng)圖。

上述研究人員表示,相信Genie 2可以解鎖具身智能體的下一波能力。

(科創(chuàng)板日?qǐng)?bào) 宋子喬)

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港