劃重點
01斯坦福大學李飛飛團隊提出數(shù)字表親概念,有效降低真實轉(zhuǎn)模擬成本并提升學習泛化性能。
02數(shù)字表親并非真實物體的虛擬對應,而只是具有相似的幾何和語義特質(zhì)和屬性。
03該團隊提出自動數(shù)字表親創(chuàng)建(ACDC)方法,可生成完全可交互的場景以及訓練可零樣本方式部署的機器人策略。
04實驗結(jié)果顯示,基于數(shù)字表親訓練得到的策略在零樣本虛擬→真實遷移條件下,能以90%的成功率勝過數(shù)字孿生的25%。
05與在數(shù)字孿生上訓練的策略相比,使用數(shù)字表親訓練的策略表現(xiàn)出相當?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能,且支持零樣本模擬到現(xiàn)實的策略轉(zhuǎn)移。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
機器之心報道
編輯:澤南、Panda
不百分百還原出虛擬場景,效果反而更好。
我們很多人都聽說過數(shù)字孿生(digital twin),在英偉達等公司的大力推動下,這種高效運營工作流程的方法已經(jīng)在很多工業(yè)場景中得到應用。
但你聽說過數(shù)字表親(digital cousin)嗎?
近日,斯坦福大學李飛飛團隊就做出了一個這樣的研究,其可有效地將真實數(shù)據(jù)變成適用于機器人學習的模擬數(shù)據(jù) 在降低真實轉(zhuǎn)模擬成本的同時還能提升學習的泛化性能。
簡單來說,你只需拍一張照片,就能將照片中的物體變成虛擬版本,并且這個數(shù)字虛擬版本還不是照片中物體的一比一復刻,而是存在一定的變化。
我們知道,在真實世界中訓練機器人并不安全,而且成本很高,難以大規(guī)模擴展。這就是模擬的用武之地,其成本低,并且可以源源不斷地獲取訓練數(shù)據(jù)。但是,模擬的問題也很明顯,模擬環(huán)境和真實環(huán)境總歸不一樣,存在含義和物理機制上的差異。
為了解決這種差異,數(shù)字孿生的概念誕生了。簡單來說,數(shù)字孿生就是為真實場景構(gòu)建一個虛擬副本,但其成本很高,并且難以實現(xiàn)跨域泛化。
為了解決這些局限,李飛飛團隊提出了數(shù)字表親(digital cousin)的概念。不同于數(shù)字孿生,數(shù)字表親并不是真實物體的虛擬對應,而只是具有相似的幾何和語義特質(zhì)和屬性。
論文標題:ACDC: Automated Creation of Digital Cousins for Robust Policy Learning
論文鏈接:https://arxiv.org/abs/2410.07408
項目地址:https://digital-cousins.github.io/
如此一來,數(shù)字表親既能降低生成相似的虛擬環(huán)境的成本,還能通過提供相似訓練場景的分布而實現(xiàn)更好的跨域泛化;跀(shù)字表親,該團隊提出了一種用于自動創(chuàng)建數(shù)字表親的全新方法,該方法就叫做自動數(shù)字表親創(chuàng)建(Automatic Creation of Digital Cousins),簡稱 ACDC。
他們還提出了一種全自動的「真實→虛擬→真實」流程,可用于生成完全可交互的場景以及訓練可以零樣本方式部署在原始場景中的機器人策略。
結(jié)果表明,ACDC 得到的數(shù)字表親可以成功保留幾何與語義特質(zhì)和屬性,同時訓練得到的機器人策略也優(yōu)于使用數(shù)字孿生得到的策略:在零樣本虛擬→真實遷移條件下,能以 90% 的成功率勝過數(shù)字孿生的 25%。
方法概述
ACDC 由三個連續(xù)步驟構(gòu)成:
首先,從輸入的 RGB 圖像中提取出每個物體的相關(guān)信息。
接下來,基于一個資產(chǎn)數(shù)據(jù)集,使用該信息來為每個檢測到的輸入物體匹配數(shù)字表親。
最后,對選取的數(shù)字表親進行后處理,生成一個完全可交互的模擬場景。
實驗
該團隊進行一系列實驗,試圖解答以下研究問題:
問題 1:ACDC 能否得到高質(zhì)量的數(shù)字表親場景?給定一張 RGB 圖像,ACDC 能否捕獲原始場景中固有的高層級語義和空間細節(jié)?
問題 2:當在原始設置上進行評估時,基于數(shù)字表親訓練得到的策略能否與基于數(shù)字孿生得到的策略相媲美?
問題 3:相比于基于數(shù)字孿生訓練得到的策略,基于數(shù)字表親訓練得到的策略是否更加穩(wěn)健
問題 4:基于數(shù)字表親訓練得到的策略能否實現(xiàn)零樣本「虛擬→真實」策略遷移
通過 ACDC 進行場景重建
在模擬 - 模擬場景中,ACDC 對場景重建進行定量和定性評估。
其中,「Scale」是輸入場景中兩個物體的邊界框之間的最大距離。「Cat.」表示正確分類的物體與場景中物體總數(shù)的比例。「Mod.」顯示正確建模的物體與場景中物體總數(shù)的比例!窵2 Dist.」提供輸入和重建場景中邊界框中心之間的歐幾里得距離的平均值和標準差!窸ri. Diff.」表示每個中心對稱物體的方向幅度差異的平均值和標準差。「Bbox IoU」表示資產(chǎn) 3D 邊界框的交并比 (IoU)。
定性 ACDC 真實 - 模擬場景重建結(jié)果。針對給定場景顯示多個表親。
基于這些結(jié)果,我們可以放心地回答問題 1:ACDC 確實可以保留輸入場景的語義和空間細節(jié),從單個 RGB 圖像生成現(xiàn)實世界對象的表親,這些表親可以準確定位和擴展,以匹配原始場景。
使用數(shù)字表親進行模擬 - 模擬策略學習
模擬-模擬策略結(jié)果。
在精確孿生、不同數(shù)量的表親和三個最近類別的所有資產(chǎn)上訓練的策略的匯總成功率。策略在四種設置上進行測試:精確數(shù)字孿生和三種越來越不相似的設置(以 DINOv2 嵌入距離為衡量標準)以探測零樣本泛化。請注意,對于任務 3,使任務可行的櫥柜模型要少得多,因此這里僅比較數(shù)字孿生和 8 個表親的策略。
使用數(shù)字表親進行模擬-真實策略學習
數(shù)字孿生與數(shù)字表親策略的零樣本真實世界評估。任務是打開宜家櫥柜的門,衡量標準是成功率:模擬 / 真實結(jié)果在 50/20 次試驗中取平均值。
真實-模擬-真實的場景生成和策略學習
全自動數(shù)字表親生成。ACDC 的無剪切視頻完全自動執(zhí)行,為真實廚房場景生成了多個數(shù)字表親。ACDC 步驟 1 末尾的軸對齊邊界框無需加速即可做到可視化。
零樣本模擬到真實世界策略遷移。專門從上面生成的四個數(shù)字表親訓練的模擬策略,我們可以零樣本遷移到相應的真實廚房場景。
基于這些結(jié)果,我們可以放心地回答問題 2、3、4:與在數(shù)字孿生上訓練的策略相比,使用數(shù)字表親訓練的策略表現(xiàn)出相當?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能,并且可以實現(xiàn)零樣本模擬到真實策略遷移。
結(jié)論
作為一種全自動管道,ACDC 用于快速生成與單個現(xiàn)實世界 RGB 圖像相對應的完全交互式數(shù)字表親場景。我們可以發(fā)現(xiàn),利用這些數(shù)字表親訓練的策略比在數(shù)字孿生上訓練的策略更穩(wěn)健,具有可媲美的域內(nèi)性能和卓越的域外泛化能力,同時也支持零樣本模擬到現(xiàn)實的策略轉(zhuǎn)移。