AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者來自于中國人民大學(xué),深圳朝聞道科技有限公司以及中國電信人工智能研究院。其中第一作者馮若軒為中國人民大學(xué)二年級碩士生,主要研究方向?yàn)槎嗄B(tài)具身智能,師從胡迪教授。
引言:在機(jī)器人操縱物體的過程中,不同傳感器數(shù)據(jù)攜帶的噪聲會對預(yù)測控制造成怎樣的影響?中國人民大學(xué)高瓴人工智能學(xué)院 GeWu 實(shí)驗(yàn)室、朝聞道機(jī)器人和 TeleAI 最近的合作研究揭示并指出了 “模態(tài)時(shí)變性”(Modality Temporality)現(xiàn)象,通過捕捉并刻畫各個(gè)模態(tài)質(zhì)量隨物體操縱過程的變化,提升不同信息在具身多模態(tài)交互的感知質(zhì)量,可顯著改善精細(xì)物體操縱的表現(xiàn)。論文已被 CoRL2024 接收并選為 Oral Presentation。
視頻鏈接:https://mp.weixin.qq.com/s/STlxll_LWO-iRFuVbP_s6A
人類在與環(huán)境互動時(shí)展現(xiàn)出了令人驚嘆的感官協(xié)調(diào)能力。以一位廚師為例,他不僅能夠憑借直覺掌握食材添加的最佳時(shí)機(jī),還能通過觀察食物的顏色變化、傾聽烹飪過程中的聲音以及嗅聞食物的香氣來精準(zhǔn)調(diào)控火候,從而無縫地完成烹飪過程中的每一個(gè)復(fù)雜階段。這種能力,即在執(zhí)行復(fù)雜且長時(shí)間的操作任務(wù)時(shí),靈活運(yùn)用不同的感官,是建立在對任務(wù)各個(gè)階段全面而深刻理解的基礎(chǔ)之上的。
然而,對于機(jī)器人而言,如何協(xié)調(diào)這些感官模態(tài)以更高效地完成指定的操作任務(wù),以及如何充分利用多模態(tài)感知能力來實(shí)現(xiàn)可泛化的任務(wù)執(zhí)行,仍是當(dāng)前尚未解決的問題。我們不僅需要使模型理解任務(wù)階段本身,還需要從任務(wù)階段的新角度重新審視多傳感器融合。在一個(gè)復(fù)雜的操縱任務(wù)中完成將任務(wù)劃分為不同階段的一系列子目標(biāo)的過程中,各個(gè)模態(tài)的數(shù)據(jù)質(zhì)量很可能隨任務(wù)階段而不斷變化。因此,階段轉(zhuǎn)換很可能導(dǎo)致模態(tài)重要性的變化。除此之外,每個(gè)階段內(nèi)部也可能存在相對較小的模態(tài)質(zhì)量變化。我們將這種現(xiàn)象總結(jié)為多傳感器模仿學(xué)習(xí)的一大挑戰(zhàn):模態(tài)時(shí)變性(Modality Temporality)。然而,過去的方法很少關(guān)注這一點(diǎn),忽視了階段理解在多傳感器融合中的重要性。
本文借鑒人類的基于階段理解的多感官感知過程,提出了一個(gè)由階段引導(dǎo)的動態(tài)多傳感器融合框架 MS-Bot,旨在基于由粗到細(xì)粒度的任務(wù)階段理解動態(tài)地關(guān)注具有更高質(zhì)量的模態(tài)數(shù)據(jù),從而更好地應(yīng)對模態(tài)時(shí)變性的挑戰(zhàn),完成需要多種傳感器的精細(xì)操縱任務(wù)。
論文鏈接:https://arxiv.org/abs/2408.01366v2
項(xiàng)目主頁:https://gewu-lab.github.io/MS-Bot/
模態(tài)時(shí)變性
在復(fù)雜的操作任務(wù)中,各傳感器數(shù)據(jù)的質(zhì)量可能會隨著階段的變化而變化。在不同的任務(wù)階段中,一個(gè)特定模態(tài)的數(shù)據(jù)可能對動作的預(yù)測具有重大貢獻(xiàn),也可能作為主要模態(tài)的補(bǔ)充,甚至可能幾乎不提供任何有用的信息。
圖 1 傾倒任務(wù)的模態(tài)時(shí)變性
以上圖中的傾倒任務(wù)為例,在初始的對齊階段中,視覺模態(tài)對動作的預(yù)測起決定性作用。進(jìn)入開始傾倒階段后,模型需要開始利用音頻和觸覺的反饋來確定合適的傾倒角度(倒出速度)。在保持靜止階段,模型主要依賴音頻和觸覺信息來判斷已經(jīng)倒出的小鋼珠質(zhì)量是否已經(jīng)接近目標(biāo)值,而視覺幾乎不提供有用的信息。最后,在結(jié)束傾倒階段,模型需要利用觸覺模態(tài)的信息判斷傾倒任務(wù)是否已經(jīng)完成,與開始傾倒階段進(jìn)行區(qū)分。除階段間的模態(tài)質(zhì)量變化,各個(gè)階段內(nèi)部也可能存在較小的質(zhì)量變化,例如音頻模態(tài)在開始傾倒和結(jié)束傾倒的前期和后期具有不同的重要性。我們將這兩種變化區(qū)分為粗粒度和細(xì)粒度的模態(tài)質(zhì)量變化,并將這種現(xiàn)象總結(jié)為多傳感器模仿學(xué)習(xí)中的一個(gè)重要挑戰(zhàn):模態(tài)時(shí)變性。
方法:階段引導(dǎo)的動態(tài)多傳感器融合
為了應(yīng)對模態(tài)時(shí)變性的挑戰(zhàn),我們認(rèn)為在機(jī)器人操縱任務(wù)中,多傳感器數(shù)據(jù)的融合應(yīng)該建立在充分的任務(wù)階段理解之上。因此,我們提出了 MS-Bot 框架,這是一個(gè)由階段引導(dǎo)的動態(tài)多傳感器融合方法,旨在基于顯式的由粗到細(xì)的任務(wù)階段理解動態(tài)地關(guān)注具有更高質(zhì)量的模態(tài)數(shù)據(jù)。為了將顯式的階段理解整合到模仿學(xué)習(xí)過程中,我們首先為每個(gè)數(shù)據(jù)集中的樣本添加了一個(gè)階段標(biāo)簽,并將動作標(biāo)簽和階段標(biāo)簽共同作為監(jiān)督信號訓(xùn)練包含四個(gè)模塊的 MS-Bot 框架(如圖 2 所示):
特征提取模塊:該模塊包含一系列單模態(tài)編碼器,每個(gè)編碼器都接受一段簡短的單模態(tài)觀測歷史作為輸入,并將它們編碼為特征。
狀態(tài)編碼器:該模塊旨在將各模態(tài)特征和動作歷史序列編碼為表示當(dāng)前任務(wù)狀態(tài)的 token。動作歷史與人類記憶相似,可以幫助指示當(dāng)前所處的任務(wù)狀態(tài)。我們將動作歷史輸入到一個(gè) LSTM 中,并通過一個(gè) MLP 將它們與模態(tài)特征編碼為狀態(tài) token。
階段理解模塊:該模塊旨在通過將階段信息注入狀態(tài) token 中,從而實(shí)現(xiàn)顯式的由粗到細(xì)粒度的任務(wù)階段理解。我們用一組可學(xué)習(xí)的階段 token 來表示每個(gè)任務(wù)階段,并通過一個(gè)門控網(wǎng)絡(luò)(MLP)來預(yù)測當(dāng)前所處的階段,利用 Softmax 歸一化后的階段預(yù)測分?jǐn)?shù)對階段 token 進(jìn)行加權(quán)融合,得到當(dāng)前階段 token。門控網(wǎng)絡(luò)的訓(xùn)練以階段標(biāo)簽作為監(jiān)督信號,對非當(dāng)前階段的預(yù)測分?jǐn)?shù)進(jìn)行懲罰。我們還放松了對階段邊界附近的樣本上的相鄰階段分?jǐn)?shù)懲罰,從而實(shí)現(xiàn)軟約束效果,得到更平滑的階段預(yù)測。新的注入階段信息后的狀態(tài) token 由原狀態(tài) token 和階段 token 加權(quán)融合得到,可以表示任務(wù)階段內(nèi)的細(xì)粒度狀態(tài),從而對多傳感器動態(tài)融合進(jìn)行引導(dǎo)。
動態(tài)融合模塊:該模塊根據(jù)當(dāng)前任務(wù)階段的細(xì)粒度狀態(tài)動態(tài)地選擇關(guān)注的模態(tài)特征。我們以注入了階段信息的狀態(tài) token 作為 Query,將模態(tài)特征作為 Key 和 Value 進(jìn)行交叉注意力(Cross Attention)。該方法根據(jù)當(dāng)前任務(wù)階段的需求,將各模態(tài)的特征動態(tài)地整合到一個(gè)融合 token 中。最后,該融合 token 輸入到策略網(wǎng)絡(luò)(MLP)中預(yù)測下一個(gè)動作。我們還引入了隨機(jī)注意力模糊機(jī)制,以一定概率將各單模態(tài)特征 token 上的注意力分?jǐn)?shù)替換為相同的平均值,防止模型簡單地記憶與注意力分?jǐn)?shù)模式對應(yīng)的動作。
圖 2 由階段引導(dǎo)的動態(tài)多傳感器融合框架 MS-Bot
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證基于由粗到細(xì)的任務(wù)階段理解的 MS-Bot 的優(yōu)越性,我們在兩個(gè)十分有挑戰(zhàn)性的精細(xì)機(jī)器人操縱任務(wù):傾倒和帶有鍵槽的樁插入中進(jìn)行了詳細(xì)的對比。
圖 3 傾倒與帶有鍵槽的樁插入任務(wù)設(shè)置
如表 1 所示,MS-Bot 在兩個(gè)任務(wù)的所有設(shè)置上均優(yōu)于所有基線方法。MS-Bot 在兩個(gè)任務(wù)中的性能超過了使用自注意力(Self Attention)進(jìn)行動態(tài)融合的 MULSA 基線,這表明 MS-Bot 通過在融合過程中基于對當(dāng)前階段的細(xì)粒度狀態(tài)的理解更好地分配模態(tài)權(quán)重,而沒有顯示階段理解的 MULSA 基線無法充分利用動態(tài)融合的優(yōu)勢。
表 1 傾倒和帶有鍵槽的樁插入任務(wù)上的性能比較
我們還對任務(wù)完成中各個(gè)模態(tài)的注意力分?jǐn)?shù)和各階段的預(yù)測分?jǐn)?shù)進(jìn)行了可視化。在每個(gè)時(shí)間步,我們分別對每種模態(tài)的所有特征 token 的注意力分?jǐn)?shù)進(jìn)行平均,而階段預(yù)測分?jǐn)?shù)是 Softmax 歸一化后的門控網(wǎng)絡(luò)輸出。如圖 4 所示,MS-Bot 準(zhǔn)確地預(yù)測了任務(wù)階段的變化,并且得益于模型中由粗到細(xì)粒度的任務(wù)階段理解,三個(gè)模態(tài)的注意力分?jǐn)?shù)保持相對穩(wěn)定,表現(xiàn)出明顯的階段間變化和較小的階段內(nèi)調(diào)整。
圖 4 各模態(tài)注意力分?jǐn)?shù)和階段預(yù)測分?jǐn)?shù)可視化
為了驗(yàn)證 MS-Bot 對干擾物的泛化能力,我們在兩個(gè)任務(wù)中都加入了視覺干擾物。在傾倒任務(wù)中,我們將量筒的顏色從白色更改為紅色。對于樁插入任務(wù),我們將底座顏色從黑色更改為綠色(“Color”),并在底座周圍放置雜物(“Mess”)。如表 2 所示,MS-Bot 在各種有干擾物的場景中始終保持性能優(yōu)勢,這是因?yàn)?MS-Bot 根據(jù)對當(dāng)前任務(wù)階段的理解動態(tài)地分配模態(tài)權(quán)重,從而減少視覺噪聲對融合特征的影響,而基線方法缺乏理解任務(wù)階段并動態(tài)調(diào)整模態(tài)權(quán)重的能力。
表 2 含視覺干擾物場景中的性能比較
總述
本文從任務(wù)階段的視角重新審視了機(jī)器人操縱任務(wù)中的多傳感器融合,引入模態(tài)時(shí)變性的挑戰(zhàn),并將由子目標(biāo)劃分的任務(wù)階段融入到模仿學(xué)習(xí)過程中。該研究提出了 MS-Bot,一種由階段引導(dǎo)的多傳感器融合方法,基于由粗到細(xì)粒度的階段理解動態(tài)地關(guān)注質(zhì)量更高的模態(tài)。我們相信由顯式階段理解引導(dǎo)的多傳感器融合會成為一種有效的多傳感器機(jī)器人感知范式,并借此希望能夠激勵(lì)更多的多傳感器機(jī)器人操縱的相關(guān)研究。