展會信息港展會大全

“世界模型”究竟是什么?會成為人工智能的下一個前沿領域嗎?
來源:互聯(lián)網   發(fā)布日期:2024-11-01 15:26:19   瀏覽:244次  

導讀:世界模型的靈感源于人類自然形成的世界心智模型。我們通過感官獲取的抽象信息在大腦中被轉化為對周圍世界的具象理解;這些“模型”早在人類開始研究AI之前就已存在;谶@些模型,我們的大腦對世界進行預測,從而影響我們的感知和行動。盡管這一概念令人振奮,但仍有許多技術挑戰(zhàn)亟待解決。與目前用于生成式模型的計算量相比,訓練和運行世界模型需要龐大的算力。此外,世界模 ......

世界模型的靈感源于人類自然形成的世界心智模型。我們通過感官獲取的抽象信息在大腦中被轉化為對周圍世界的具象理解;這些“模型”早在人類開始研究AI之前就已存在;谶@些模型,我們的大腦對世界進行預測,從而影響我們的感知和行動。

盡管這一概念令人振奮,但仍有許多技術挑戰(zhàn)亟待解決。與目前用于生成式模型的計算量相比,訓練和運行世界模型需要龐大的算力。此外,世界模型也存在幻覺問題。

近年來,人工智能(AI)領域涌現(xiàn)出一種被稱為“世界模型”(World Models)或“世界模擬器”的新概念,被一些行內人士視為AI的下一個重大前沿。AI領域的領軍人物李飛飛創(chuàng)立的World Labs(世界實驗室)已籌集了2.3億美元資金,致力于構建“大型世界模型”(LWM);與此同時,谷歌DeepMind也聘請了OpenAI視頻生成器Sora的創(chuàng)造者之一,參與“世界模擬器”的研究。

什么是“世界模型”?近日,科技媒體TechCrunch的高級記者凱爾威格斯(Kyle Wiggers)撰文,梳理了關于“世界模型”的一系列問題,以下是澎湃科技(www.thepaper.cn)編譯。

什么是世界模型?

世界模型的靈感源于人類自然形成的世界心智模型。我們通過感官獲取的抽象信息在大腦中被轉化為對周圍世界的具象理解;這些“模型”早在人類開始研究AI之前就已存在;谶@些模型,我們的大腦對世界進行預測,從而影響我們的感知和行動。

AI研究人員大衛(wèi)哈(David Ha)和尤爾根施米德胡伯(Jürgen Schmidhuber)以棒球擊球手為例,論述了擊球手只有幾毫秒的時間決定如何揮棒,這比視覺信號傳遞到大腦的時間還短。他們之所以能擊中時速160公里的快速球,是因為他們能本能地預測球的位置。

兩位研究人員寫道:“對于職業(yè)選手來說,這一切都是在潛意識中完成的。他們的肌肉會反射性地在正確的時間和位置揮棒,與其內在心智模型的預測一致。他們可以快速根據(jù)對未來的預測而采取行動,但無需有意識地推演可能的未來情景以制定計劃!

正是這種世界心智模型的潛意識推理能力,讓一些科技研究者認為,世界模型是實現(xiàn)人類級別智能的前提。

世界模型有哪些應用潛力?

盡管這個概念已經存在了幾十年,世界模型最近因其在生成式視頻領域的應用而備受關注。目前,大多數(shù)AI生成的視頻都會陷入“恐怖谷”現(xiàn)象,觀看時間稍長就會出現(xiàn)畫面崩壞,如四肢扭曲或融合。

傳統(tǒng)的生成式模型可能能夠準確預測籃球會彈跳,但并不真正理解其中的原因,就像大型語言模型實際上是基于神經網絡的概率推理,給出最可能符合讀者預期的答案,而非真正理解詞語和短語背后的意義。然而,具有基本物理認知的世界模型將更善于展現(xiàn)“籃球的真實彈跳”。

為了實現(xiàn)這種洞察力,世界模型需要在大量的照片、音頻、視頻和文本數(shù)據(jù)上進行訓練,旨在創(chuàng)建對世界運作方式的內部表征,并具備推理行動后果的能力。

Snap前AI主管、現(xiàn)Higgsfield公司CEO亞歷克斯馬什拉博夫(Alex Mashrabov)表示:“觀眾期望他們觀看的世界與現(xiàn)實相似。如果一根羽毛以鐵砧的重量下落,或者保齡球飛上數(shù)百英尺的高空,這會讓觀眾出戲。有了強大的世界模型,創(chuàng)作者就無需定義每個物體的運動方式這既繁瑣又低效因為模型將能夠自行理解原理!

然而,改進視頻生成只是世界模型的冰山一角。包括Meta首席AI科學家楊立昆(Yann LeCun)在內的研究人員認為,這些模型未來可用于數(shù)字和物理領域的復雜預測和規(guī)劃。

在今年早些時候的一次演講中,楊立昆描述了世界模型如何通過推理來實現(xiàn)目標。一個具有基礎“世界”表示(例如一段臟房間的視頻)的模型,給定一個目標(干凈的房間),可以推導出一系列行動(使用吸塵器、清洗餐具、倒垃圾)來實現(xiàn)目標。這并非因為它觀察到了這種模式,而是因為它在更深層次上理解了事物如何從臟到凈。

“我們需要能夠理解世界的機器;具備記憶、直覺和常識的機器能夠像人類一樣推理和規(guī)劃的機器,”楊立昆表示!氨M管你可能聽到一些最熱情之人的吹噓,但當前的人工智能系統(tǒng)并不具備這些能力!

雖然楊立昆估計我們距離他設想的世界模型至少還有十年的時間,但當今的世界模型已經顯示出其作為基本物理模擬器的前景。

OpenAI在一篇博客中認為Sora是一個世界模型,可以模擬畫家在畫布上留下畫筆筆觸等動作。像Sora這樣的模型以及Sora本身也可以有效地模擬視頻游戲。例如,Sora可以渲染類似Minecraft的UI和游戲世界。

World Labs聯(lián)合創(chuàng)始人賈斯汀約翰遜(Justin Johnson)在a16z播客的一集中表示,未來世界模型可能能夠按需生成3D世界,用于游戲、虛擬攝影等。

“我們已經有能力創(chuàng)建虛擬的交互式世界,但這需要花費數(shù)億美元和大量的開發(fā)時間,”約翰遜表示,“‘世界模型’不僅可以讓用戶獲得圖片或視頻片段,還可以獲得一個模擬效果完備、充滿活力的交互式3D世界!

實現(xiàn)世界模型面臨哪些技術挑戰(zhàn)?

盡管這一概念令人振奮,但仍有許多技術挑戰(zhàn)亟待解決。與目前用于生成式模型的計算量相比,訓練和運行世界模型需要龐大的算力。雖然一些最新的語言模型可以在現(xiàn)代智能手機上運行,但Sora(多少算一種早期世界模型)需要數(shù)千個GPU來訓練和運行,尤其是在其使用變得普及的情況下。

世界模型和所有AI模型一樣,也會產生幻覺,并內化訓練數(shù)據(jù)中的偏見。一個主要由歐洲城市晴天視頻訓練的世界模型,可能難以理解或正確描繪韓國城市的雪景。

亞歷克斯馬什拉博夫指出,訓練數(shù)據(jù)的匱乏可能會加劇這些問題!拔覀円呀浛吹侥P驮谏赡撤N類型或種族的人物時受到限制,”他說!笆澜缒P偷挠柧殧(shù)據(jù)必須足夠廣泛,以涵蓋多樣化的情景,同時也要足夠具體,使AI能夠深入理解這些情景的細微差別!

AI初創(chuàng)公司Runway的CEO克里斯托瓦爾瓦倫蘇埃拉(CristóbalValenzuela)在最近的一篇文章中表示,數(shù)據(jù)和工程問題阻礙了當前模型準確捕捉世界中生物(如人類和動物)行為的能力!澳P托枰梢恢碌沫h(huán)境地圖,”他說,“并具備在這些環(huán)境中導航和互動的能力!

世界模型能為具身智能提供技術基礎

如果所有主要障礙都被克服,亞歷克斯馬什拉博夫認為,世界模型可以“更穩(wěn)定地”將AI與現(xiàn)實世界連接起來,不僅在虛擬世界生成方面,而且也在機器人技術和AI決策方面取得突破。

這也可能催生更強大的機器人。如今的機器人在功能上受到限制,因為它們缺乏對周圍現(xiàn)實世界(或自身身體)的意識。世界模型可以為它們提供這種意識,至少在一定程度上可以。

“有了先進的世界模型,AI可以對其所處的任何情境形成自身的理解,”他說,“并開始推理出可能的解決方案!

世界模型能夠為人工智能提供理解真實的三維物理世界的能力,使人形機器人真正感知真實世界,對具身智能的實現(xiàn)具有重大意義。

贊助本站

AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港