劃重點
01中山大學和華為諾亞等單位的研究團隊提出了一種全新的原語驅動的路徑點感知世界模型PIVOT-R。
02與現(xiàn)有方法相比,PIVOT-R通過關注與任務相關的路徑點預測,提升機器人操作的準確性,并設計了一個異步分層執(zhí)行器,降低計算冗余,提升模型的執(zhí)行效率。
03實驗結果顯示,PIVOT-R在仿真環(huán)境和真實環(huán)境都取得了最優(yōu)的效果,同時,模型的速度和RT-1等方法速度相近,沒有因為使用大模型而導致速度變慢。
以上內容由大模型生成,僅供參考
AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
對于人類而言,一旦掌握了 “打開瓶蓋” 的動作,面對 “擰緊螺絲” 這樣的任務通常也能游刃有余,因為這兩者依賴于相似的手部動作。然而,對于機器人來說,即使是這樣看似簡單的任務轉換依然充滿挑戰(zhàn)。例如,換成另一種類型的瓶蓋,機器人可能無法成功打開。這表明,目前的機器人方法尚未充分讓模型學習到任務的內在執(zhí)行邏輯,而只是單純的依賴于數(shù)據(jù)擬合。
針對該問題,來自中山大學和華為諾亞等單位的研究團隊提出了一種全新的原語驅動的路徑點感知世界模型,借助 VLMs 作為機器人的大腦,理解任務之間的動作關聯(lián)性,并通過 “世界模型” 獲取對未來動作的表征,從而更好地幫助機器人學習和決策。該方法顯著提升了機器人的學習能力,并保持良好的泛化性。
論文地址:https://arxiv.org/abs/2410.10394
項目主頁:https://abliao.github.io/PIVOT-R/
研究動機
當前,現(xiàn)有機器人操作任務有兩個關鍵問題:
機器人模型在開放世界中表現(xiàn)差且不穩(wěn)定:許多機器人操作模型雖然能夠處理復雜任務,但往往直接將用戶指令和視覺感知映射到低層次的可執(zhí)行動作上,而忽略了操作任務中關鍵狀態(tài)(路徑點)的建模。這種方式容易使模型記住表面數(shù)據(jù)模式,導致模型在開放環(huán)境中表現(xiàn)脆弱。模型缺乏對關鍵路徑點的預測,使得每個動作的隨機性可能逐步放大,降低了任務的執(zhí)行成功率。
計算效率低:隨著模型的增大(例如 RT-2, RT-H),運行速率隨之降低,無法滿足機器人任務實時性的需求。
為了解決上述問題,研究團隊提出了 PIVOT-R,一種原語驅動的路徑點感知世界模型。如上圖所示,對比左圖現(xiàn)有的方法,右圖展示了 PIVOT-R 通過關注與任務相關的路徑點預測,提升機器人操作的準確性,并設計了一個異步分層執(zhí)行器,降低計算冗余,提升模型的執(zhí)行效率。
這樣做有幾個好處:
它使得模型可以更好的學習任務與動作之間的內在關聯(lián)性,減少其他干擾因素的影響,并更好地捕捉不同任務之間的相似性(例如,擰瓶蓋和擰螺絲的動作是相似的,拿杯子和搭積木都有一個抓住物體的過程),從而使得模型可以在多任務數(shù)據(jù)下學習到可遷移的知識。
通過世界模型建模的方式獲得對未來關鍵動作的表征,避免了文本語言帶來的模糊性、不確定性。
通過異步執(zhí)行的方式,確保各模塊獨立運行、互不阻塞,從而有效避免了大模型導致的低速率問題。
研究方法
原語動作解析
PIVOT-R 的第一個核心步驟是原語動作解析,這一步通過預訓練的視覺 - 語言模型(VLM)來解析用戶的語言指令。VLM 可以將復雜的自然語言指令轉換為一組簡單的原語動作,例如 “靠近”、“抓取”、“移動” 等。這些原語動作為機器人提供了操作任務的粗略路徑。
具體流程如下:
用戶輸入的語言指令(例如 “請給我那個杯子”)首先被輸入到 VLM 中,VLM 會將其解析為與任務相關的原語動作(如 “靠近杯子”、“抓取杯子”)。
原語動作作為提示,指導機器人在接下來的步驟中專注于特定的操作軌跡點。這種方式確保機器人不會被復雜的環(huán)境因素干擾,而是明確知道每個動作的目的。
路徑點預測
在原語動作解析后,PIVOT-R 的下一步是路徑點預測。路徑點代表了機器人操控過程中一些關鍵的中間狀態(tài),例如靠近物體、抓取物體、移動物體等。通過預測路徑點,PIVOT-R 能夠在機器人執(zhí)行任務時提供明確的操作指導。具體來說,通過一個 Transformer 架構的模型,預測路徑點對應的視覺特征,為后續(xù)的動作預測模塊提供指引。
動作預測模塊
動作預測模塊負責根據(jù)預測的路徑點生成具體的低層次機器人動作。它以路徑點為提示,結合機器人歷史狀態(tài)(如位置、姿態(tài)等),計算下一步應該執(zhí)行的動作。該模塊使用輕量級的 Transformer 架構進行動作預測,確保計算效率和性能的平衡。這一模塊的設計重點在于低延遲和高精度執(zhí)行操控任務。
異步分層執(zhí)行器
此外,PIVOT-R 還引入了一個關鍵的執(zhí)行機制,即異步分層執(zhí)行器。與以往的機器人模型不同,PIVOT-R 并不對所有模塊在每一步都進行同步更新,而是為不同模塊設置了不同的執(zhí)行頻率,以多線程的方式進行異步更新,從而提升執(zhí)行速度。
實驗
作者在具有復雜指令的 SeaWave 仿真環(huán)境和真實環(huán)境下進行實驗。
如 Table 1 和 Table 2 所示,PIVOT-R 在仿真環(huán)境和真實環(huán)境都取得了最優(yōu)的效果,同時,模型的速度和 RT-1 等方法速度相近,沒有因為使用大模型而導致速度變慢。
作者也在 SeaWave 上做了泛化性測試,在三種泛化性測試場景下,PIVOT-R 仍保持遠高于其他模型的成功率。
研究總結
PIVOT-R 通過引入原語動作驅動的路徑點感知,顯著提升了機器人在復雜操控任務中的性能。該模型不僅在執(zhí)行效率上具備優(yōu)勢,還能夠更好地應對復雜、多變的環(huán)境。該方法在仿真環(huán)境和真實環(huán)境操縱下表現(xiàn)優(yōu)異,為機器人學習提供了一個新范式。