科技新聞特約作者 周小燕
編輯 鄭可君
北京時間1月7日,黃仁勛和14臺人形機器人同時出現(xiàn)在2025年CES展會的舞臺上。
(1月7日拉斯維加斯2025 CES大會上,黃仁勛同時與14臺人形機器人登臺)
這一幕似曾相識,就在2024年3月,黃仁勛曾同時與9家人形機器人亮相英偉達GTC大會的舞臺。
(2024年3月,黃仁勛與9臺人形機器人在英偉達GTC大會)
彼時,黃仁勛發(fā)布英偉達人形機器人通用基礎模型Project GR00T,正式宣布進駐人形機器人服務商。Project GR00T就像幫助機器人變得更聰明的大腦,在GR00T的指揮之下,機器人能夠理解自然語言,并通過觀察人類行為模仿動作,從而適應現(xiàn)實環(huán)境并與之交互。
與GTC大會不同的是,黃仁勛這次在CES上重點發(fā)布的是世界基礎模型開發(fā)平臺Cosmos,它提供了一種簡單的方法來生成大量基于物理世界的合成數(shù)據(jù)。
Cosmos可以通過文本、圖像或視頻的提示,生成高度仿真的虛擬世界,它基于2000萬小時的視頻進行訓練,分為自回歸模型和擴散模型兩類。
與其它合成數(shù)據(jù)生成平臺不同的是,Cosmos能夠理解這個世界,比如它可以理解幾何空間、摩擦力和重力,并且壓縮“虛擬”與“現(xiàn)實”之間的差距。
對于具身智能而言,這是一個重要突破,因為它幫助人形機器人解決泛化道路上的最大瓶頸之一“高質量數(shù)據(jù)稀缺”問題,為人形機器人感知環(huán)境創(chuàng)建逼真的環(huán)境和感知物體。
與黃仁勛一起出現(xiàn)在CES舞臺上的1X、Agile Robots、Agility、Figure、傅立葉、波士頓動力等14家人形機器人,都是英偉達Cosmos平臺的種子用戶。
那么,在這之前,人形機器人數(shù)據(jù)采集遇到了哪些難點?Cosmos對解決這些難點產生哪些價值?
高質量數(shù)據(jù)瓶頸,成為人形機器人泛化難題
通用人形機器人,需要擁有任務泛化能力。
但目前不論是老牌人形機器人波士頓動力Atlas,還是新興的擎天柱、Figure等,它們在實際場景的應用還停留在單點任務處理上。比如,擎天柱學會了疊衣服,但是又要重新訓練才能學會疊被子。也就是說,它們在完成一個任務后,不具備自主判斷下一個任務要做什么的能力。
而阻礙人形機器人擁有泛化能力的最大因素,就是高質量數(shù)據(jù)的稀缺。即便Agility旗下的Digit機器人整天泡在亞馬遜工廠里打工,擁有天然的豐富場景數(shù)據(jù)學習環(huán)境,它的首席技術官Pras Velagapudi依舊表示:“數(shù)據(jù)稀缺性和多變性是機器人從環(huán)境中成功學習的關鍵挑戰(zhàn)!
機器人需要高質量的數(shù)據(jù),否則可能會導致目標誤判或任務失敗,甚至做出不恰當?shù)男袨椤1热,一個涂抹醬汁的機器人可能會把醬汁灑一地,一個醫(yī)療手術機器人可能會用手術刀傷到人類。
為了給機器人采集到高質量數(shù)據(jù),根據(jù)機器人是否與真實世界接觸,通常會從現(xiàn)實世界中采集真實數(shù)據(jù),采集方式有兩種:
直接接觸數(shù)據(jù)(真機數(shù)據(jù)):機器人用自己的傳感器與物理世界直接交互。比如波士頓動力的液壓Atlas在實驗室“跑酷”,F(xiàn)igure02機器人在美國斯帕坦堡寶馬車廠打工。
間接接觸數(shù)據(jù)(人工控制數(shù)據(jù)):通過人類操作讓機器人與物理世界接觸并記錄,比如斯坦福的炒菜機器人Aloha就是人類控制機械臂進行操控的。
對于機器人而言,最理想的數(shù)據(jù)采集方式是通過機器人本體直接觸達物理世界,這種方式能讓機器人準確理解真實的環(huán)境,也就是真機數(shù)據(jù)。
但采集真機數(shù)據(jù)需要付出大量時間和資金成本。
首先,必須要讓機器人部署在實際環(huán)境中,但大多數(shù)人形機器人受限于運動技術水平,只能待在受限的實驗室環(huán)境。
這就很難通過規(guī);谢绞阶寵C器人高效完成數(shù)據(jù)采集。就像父母們既希望孩子擁有豐富的知識面,卻又將孩子關在家中閉門不出,在受限的環(huán)境里,他們無法理解外面的世界有多大。
于是,必須花費大量時間去搭建各種場景,讓機器人做“題海戰(zhàn)術”。
其次,機器人學習新技能的效率十分低下。比如,機器人學會了拿蘋果,轉而去學習取盤子,又要重新經過大量學習。
于是,研究人員試圖尋求間接的辦法,使用人力作為輔助,幫助機器人提高學習效率,也就是遠程遙控,人走到哪里,機器人也可以跟著學到哪里,但這個方式的成本依舊高昂。
2024年年初爆火的炒菜機器人Aloha,采用了一個有趣的方案收集數(shù)據(jù),基本思路是設置兩個機器人手臂,讓它們互相鏡像,人類可以推動一個手臂,另一個手臂則執(zhí)行任務,比如拿起一個積木。通過反復演示(比如50次),機器人可以學習如何完成特定任務。
盡管Aloha使用了低成本的手臂,但每個也要大約5000美元,為了完成這項訓練,至少需要4個機械臂大約2萬美金,而這實際上已經是比較低的成本了,通常工業(yè)手臂可能價值數(shù)十萬美元。
智元機器人姜青松曾在2024年8月份智元機器人發(fā)布會上算了一筆賬,智元機器人計劃建立的采樣廠包含100臺采樣機器,對應150位工人,目標是希望每個工人每天采集1000條數(shù)據(jù),按照0.4元/條的成本計算,150位工人則意味著采樣廠日均成本高達6萬元。
人形機器人變得更智能,需要在更短的時間里獲得更多的高質量數(shù)據(jù)。
人形機器人數(shù)據(jù)卡點,被英偉達Cosmos攻克?
為了解決低成本獲得高質量數(shù)據(jù)問題,很多人開始嘗試采用合成數(shù)據(jù)。
合成數(shù)據(jù)并不只在機器人場景使用,大模型、自動駕駛等許多需要訓練人工智能、需要數(shù)據(jù)支持的場景都在使用合成數(shù)據(jù)。
但合成數(shù)據(jù)也存在問題,就像近親繁殖,如果使用合成數(shù)據(jù)超過一定比例,反而會讓數(shù)據(jù)質量下降。
2023年,萊斯大學和斯坦福大學的研究人員發(fā)布了一項研究,表明過度依賴合成數(shù)據(jù)進行訓練可能會導致模型的質量和多樣性下降。研究指出,采樣偏差造成的合成數(shù)據(jù),不能充分代表真實世界,并且會在經過多輪訓練后,導致模型的多樣性逐漸退化。
前OpenAI創(chuàng)始成員Karpathy在接受采訪時表示,模型在訓練時可能會出現(xiàn)一種“靜默崩潰”的情況,簡單來說,雖然單個輸出看起來正常,但如果你看整個數(shù)據(jù)的分布,就會發(fā)現(xiàn)它缺乏多樣性,變得單一。這對于合成數(shù)據(jù)生成來說是個問題,因為合成數(shù)據(jù)需要包含豐富的變化和多樣性(也就是“熵”),否則就會生成一個過于單一、不真實的數(shù)據(jù)集。
因此,如何用比較低的成本,獲得接近真實世界的數(shù)據(jù),成為包括機器人在內等行業(yè)需要突破的關鍵。
于是就有了數(shù)字孿生,數(shù)字孿生并不是一個新概念,它用虛擬模型來“復制”一個真實物體、設備或系統(tǒng),目前,數(shù)字孿生已經在制造業(yè)、醫(yī)療等領域得到了應用,但數(shù)字孿生的準確性和效果取決于所收集數(shù)據(jù)的質量。如果數(shù)據(jù)不完整、存在錯誤或不準確,虛擬模型的表現(xiàn)就會受到影響。
但作為世界模型,英偉達Cosmos平臺和以往的合成數(shù)據(jù)工具都不相同,在英偉達公布的Cosmos論文中,對世界模型的描述是:
“世界基礎模型就是一種根據(jù)過去發(fā)生的事和當前變化,來預測未來會怎樣的工具!
簡單來說,Cosmos是一種類似“預測未來”的工具。它能把真實世界的規(guī)則整理好,根據(jù)當前的情況猜測接下來會發(fā)生什么,然后告訴自動駕駛汽車或機器人該怎么做。比如,假設前面有障礙物,模型會預測它可能移動的方向,并指導汽車或機器人做出反應。
這套工具是目前第一款專門為訓練AI、自動駕駛和機器人的世界模型。
此外,黃仁勛在會場還演示了將Cosmos與英偉達Omniverse平臺聯(lián)合使用的功效,開發(fā)者可以基于Omniverse創(chuàng)建虛擬的三維場景,再疊加使用Cosmos生成與真實世界高度相似的場景,以便于開發(fā)者用于模型訓練。
(左側:Omniverse制作的虛擬仿真世界 右側:疊加Cosmos生成的效果)
在這個過程中,Cosmos對于機器人數(shù)據(jù)瓶頸最大的幫助,是用最低的成本,來縮小虛擬數(shù)據(jù)與物理世界數(shù)據(jù)的誤差。
但Cosmos生成的合成數(shù)據(jù)未必能完全代替真實數(shù)據(jù)的作用。合成數(shù)據(jù)與真實數(shù)據(jù)各有優(yōu)勢,它們是一種互補關系,這一點從黃仁勛和馬斯克近期的觀點中也可以看出。
根據(jù)TechCrunch報道,馬斯克在2024年12月也發(fā)表了對于AI數(shù)據(jù)的看法,他贊同人工智能行業(yè)已經達到“數(shù)據(jù)峰值”的說法,“補充現(xiàn)實世界數(shù)據(jù)的唯一方法是使用合成數(shù)據(jù)”。
有趣的是,黃仁勛在2025年CES后的采訪中表示,Cosmos生成的合成數(shù)據(jù)無法替代真實數(shù)據(jù),并認為自動駕駛應該盡可能使用真實數(shù)據(jù),并且贊賞馬斯克的特斯拉汽車工廠擁有大量行駛數(shù)據(jù)。
他們一個擁有高配置的仿真數(shù)據(jù)生成平臺,一個擁有豐富的自動駕駛數(shù)據(jù)資源,在堅守各自陣地的同時,卻也都在欣賞著對方的領域。
參考資料:
NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development | NVIDIA Newsroom