當(dāng)前位置：人工智能實(shí)驗(yàn)室> 機(jī)器人 > OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 14:33:07 瀏覽：3263次

導(dǎo)讀：新智元報(bào)道編輯：桃子好困【新智元導(dǎo)讀】剛剛，OpenAI重金押注的人形機(jī)器人初創(chuàng)1X終于揭秘了背后的「世界模型」它能夠根據(jù)真實(shí)數(shù)據(jù)，生成針對(duì)不同場(chǎng)景的中的行為預(yù)測(cè)！機(jī)器人領(lǐng)域的ChatGPT時(shí)刻，或許真的要來了。月初，OpenAI投下重注人形機(jī)器人初創(chuàng)1X，...

新智元報(bào)道

編輯：桃子好困【新智元導(dǎo)讀】剛剛，OpenAI重金押注的人形機(jī)器人初創(chuàng)1X終于揭秘了背后的「世界模型」它能夠根據(jù)真實(shí)數(shù)據(jù)，生成針對(duì)不同場(chǎng)景的中的行為預(yù)測(cè)！機(jī)器人領(lǐng)域的ChatGPT時(shí)刻，或許真的要來了。月初，OpenAI投下重注人形機(jī)器人初創(chuàng)1X，終于放出了NEO官宣視頻。它的首次現(xiàn)身，就驚艷到所有人。不僅外觀上，被戲稱為「穿著西裝的人」，而且在能力上，幫女主拎包、一起下廚，妥妥的一個(gè)通用家庭機(jī)器人。它專為人類設(shè)計(jì)，去完成我們不愿意做的各種家庭任務(wù)，比如清潔、整理等等。時(shí)隔半個(gè)月，1X終于發(fā)布了NEO背后的「世界模型」。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

有了這個(gè)虛擬世界模擬器，NEO可以預(yù)測(cè)有用的物體交互。簡(jiǎn)言之，它們完全可以生成，各種環(huán)境中的視頻畫面。比如，疊一件T恤、拉開窗簾這類可變性物體，家里隨處可見，但卻很難將其放入虛擬世界模擬器中。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

有趣的是，1X AI副總裁Eric Jang稱，他們?cè)谵k公室專門放了一個(gè)全身鏡，這樣「模型」可以在鏡子中，認(rèn)出自己。NEO現(xiàn)在有了自我反思的能力，不過，自我意識(shí)還沒覺醒。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

通過理解世界，并與之交互，1X「世界模型」可以生成高保真視頻，并在神經(jīng)網(wǎng)絡(luò)中，重新規(guī)劃、模擬和評(píng)估。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

這也是世界模型，之于機(jī)器人的重要性。1X創(chuàng)始人兼CEO Bernt Bornich表示，首次證明了人形機(jī)器人數(shù)據(jù)，正顯著地推進(jìn)Scaling Law。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

谷歌DeepMind機(jī)器人高級(jí)研究員Ted Xiao表示，1X的「學(xué)習(xí)型」世界模型能夠隨著驚艷、物理交互數(shù)據(jù)不斷改進(jìn)。- 世界模型很可能是在多智能體環(huán)境中，實(shí)現(xiàn)可重復(fù)和可擴(kuò)展評(píng)估的唯一前進(jìn)的方向。（參加自動(dòng)駕駛中世界模型評(píng)估成功案例）- 一旦世界模型足以用于評(píng)估，它們很可能已經(jīng)至少完成了90%的訓(xùn)練工作。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

機(jī)器人「世界模型」來了！

直白講，世界模型就是一種計(jì)算機(jī)程序。它能夠想象出，世界如何隨著智能體的行為而演變�；谝曨l生成和自動(dòng)駕駛汽車世界模型研究，1X由此訓(xùn)練出自家的世界模型，作為NEO的虛擬模擬器。從相同的起始圖像序列出發(fā)，1X世界模型可以根據(jù)不同機(jī)器人的動(dòng)作，預(yù)測(cè)多種可能的未來場(chǎng)景。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

左：去左側(cè)的門；中：彈空氣吉他；右：去右側(cè)的門那么，具身機(jī)器人的存在，最重要的是能夠與物理世界交互。而在萬千繁雜的世界中，如何有效交互就成為了難題。世界模型，能夠幫助NEO完成精準(zhǔn)地交互，比如剛體、物體掉落的效果、不完全可見物體（杯子）、可變形物體（窗簾、衣物）、鉸接物體（門、抽屜、椅子）。它能夠?qū)⒉捅P放入瀝水架子中。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

它還可以拉開窗簾。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

從抽屜拿出東西等等。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

具身機(jī)器人難題評(píng)估另外，世界模型解決了構(gòu)建通用機(jī)器人時(shí)，一個(gè)非常實(shí)際但常被忽視的挑戰(zhàn)：評(píng)估。假設(shè)訓(xùn)練機(jī)器人執(zhí)行1000個(gè)獨(dú)特的任務(wù)，那么很難判斷一個(gè)新模型是否真的在所有任務(wù)上，都比之前的模型有所改進(jìn)。更令人困擾的是，即便模型權(quán)重相同，但由于環(huán)境背景或環(huán)境光線的細(xì)微變化，性能可能在短短幾天內(nèi)下降。研究人員訓(xùn)練了一個(gè)機(jī)器人疊T恤的模型，性能在50天內(nèi)逐漸下降。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

而且，如果環(huán)境不斷持續(xù)變化，實(shí)驗(yàn)的可重復(fù)性便成為難題。尤其是，在家庭、辦公室這樣的環(huán)境中，去評(píng)估多任務(wù)系統(tǒng)，這一問題就會(huì)變得更加棘手�；谶@些因素，使得在真實(shí)世界中，開啟嚴(yán)謹(jǐn)?shù)臋C(jī)器人研究變得異常困難。當(dāng)scaling數(shù)據(jù)、算力、模型規(guī)模時(shí)，AI系統(tǒng)能力將如何擴(kuò)展的問題，可以通過精準(zhǔn)測(cè)量進(jìn)行預(yù)測(cè)。Scaling Law已經(jīng)成為ChatGPT這樣的通用AI系統(tǒng)，性能提升的有力支撐。因此，如果機(jī)器人領(lǐng)域想要迎來屬于自己的「ChatGPT時(shí)刻」，必須首先建立起它的「Scaling Law」。從原生數(shù)據(jù)中學(xué)習(xí)，預(yù)測(cè)未來場(chǎng)景

基于物理模擬的引擎，諸如Bullet、Mujoco、Isaac Sim、Drake，已成為快速測(cè)試機(jī)器人策略的合理方法。而且，這些模擬器可以重置、重復(fù)使用，進(jìn)而研究人員能夠仔細(xì)比較不同控制算法。然而，這些模擬器主要是為「剛體動(dòng)力學(xué)」設(shè)計(jì)的，并且需要大量人工數(shù)據(jù)收集。那么，如何讓模擬機(jī)器人打開一盒咖啡濾紙、用刀切水果、擰開一罐果醬，或與人類、其他AI智能體互動(dòng)呢？家庭環(huán)境中，常見的日常物品、寵物很難模擬，訓(xùn)練機(jī)器人極度缺少真實(shí)世界的用例。因此，在有限數(shù)量任務(wù)中，對(duì)機(jī)器人進(jìn)行小規(guī)模真實(shí)/模擬評(píng)估，并不能準(zhǔn)確預(yù)測(cè)其在真實(shí)世界中的表現(xiàn)。也就是說，這樣訓(xùn)練出的機(jī)器人，很難具備真實(shí)世界「通用泛化」能力。1X研究團(tuán)隊(duì)采取了全新的方法，來評(píng)估通過機(jī)器人：直接從原生傳感器數(shù)據(jù)中學(xué)習(xí)模擬，并利用它在數(shù)百萬情境中，評(píng)估機(jī)器人策略。

這種「世界模型」方法的優(yōu)勢(shì)在于，可以一鍵獲得真實(shí)世界所有復(fù)雜數(shù)據(jù)，而無需手動(dòng)創(chuàng)建資產(chǎn)。過去一年里，1X團(tuán)隊(duì)收集了超5000小時(shí)EVE人形機(jī)器人數(shù)據(jù)。這些數(shù)據(jù)包括，機(jī)器人在家庭和辦公室環(huán)境中，執(zhí)行各種移動(dòng)操作任務(wù)，以及與人互動(dòng)的場(chǎng)景。然后，他們將視頻和動(dòng)作數(shù)據(jù)結(jié)合，訓(xùn)出一個(gè)世界模型。這個(gè)模型非常強(qiáng)大，不僅能夠根據(jù)所觀察到的情況，執(zhí)行動(dòng)作，還能生成視頻，預(yù)測(cè)未來的場(chǎng)景畫面。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

動(dòng)作可控，「腦補(bǔ)」彈空氣吉他1X世界模型能夠根據(jù)不同的動(dòng)作指令，生成多樣化的輸出。如下圖所示，展示了基于四種不同動(dòng)作序列，生成的各種結(jié)果。這些動(dòng)作序列，都是從相同的初始畫面幀開始。與之前一樣，這些所展示的示例，都不包含在訓(xùn)練數(shù)據(jù)中。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

世界模型的主要價(jià)值在于，能夠模擬物體之間的交互。在接下來的模擬生成中，研究人員為模型提供相同的初始場(chǎng)景，并設(shè)置了三組不同的抓取盒子的動(dòng)作。在每個(gè)模擬場(chǎng)景中，被抓取的盒子，會(huì)隨機(jī)械手運(yùn)動(dòng)而被提起和移動(dòng)，而其他未被抓取盒子紋絲不動(dòng)，保持原位。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

即便沒有給出具體的動(dòng)作指令，世界模型也能生成看起來合情合理的視頻。比如說，它能自己在前行時(shí)，避開行人和障礙物，這種行為是很符合常理的。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

模擬疊T恤，長(zhǎng)期任務(wù)也在行此外，1X還可以生成長(zhǎng)視頻。正如開頭所展示的例子，NEO模擬了一個(gè)完整的T恤折疊演示。值得一提的是，T恤等可變形物體，往往在「剛體模擬器」中難以實(shí)現(xiàn)。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

當(dāng)前存在的問題

不過，1X的世界模型同樣存在一些問題。物體一致性比如，模型在與物體交互的過程中，可能無法保持物體的形狀的和顏色一致性。尤其是當(dāng)物體被遮擋，或者以不理想角度呈現(xiàn)時(shí)，世界模型在生成視頻過程中，物體外觀可能會(huì)出現(xiàn)變形。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

有時(shí)，物體甚至完全消失不見。比如，在執(zhí)行拿起紅色小球并放置在盤子上這一動(dòng)作時(shí)，球在過程中莫名其妙地就消失了。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

物理學(xué)定律而且，它也不懂物理世界中的基本定律。有時(shí)候，NEO能夠?qū)ξ锢韺傩杂凶匀坏睦斫�，比如松開機(jī)械手之后，勺子會(huì)掉落到桌子上。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

但在很多情況下，生成的結(jié)果并沒有遵循物理法則，比如下面這個(gè)，盤子就直接懸在了空中。這說明，世界模型并不理解所有物體，都受到豎直向下的重力作用。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？

自我認(rèn)知另外，研究人員讓AI機(jī)器人EVE走到鏡子前，觀察其是否會(huì)生成與鏡子中的相對(duì)應(yīng)的行為。沒想到，它在抬起另一只手臂時(shí)，鏡子中沒有同步�？梢姡F(xiàn)在1X模型沒有自我意識(shí)的表現(xiàn)。 OpenAI重金押注，機(jī)器人NEO世界模型登場(chǎng)！機(jī)器人迎來ChatGPT時(shí)刻？