展會信息港展會大全

斷交OpenAI后,人形機(jī)器人獨(dú)角獸首秀:一個神經(jīng)網(wǎng)絡(luò)控制整個上身
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-24 10:01:00   瀏覽:206次  

導(dǎo)讀:白交 發(fā)自 凹非寺量子位 | 公眾號 QbitAI與OpenAI斷交之后,F(xiàn)igure首個成果出爐:Helix,一個端到端通用控制模型,它能讓機(jī)器人像人一樣感知、理解和行動。只需自然語言提示,機(jī)器人就能拿起任何東西,哪怕是從沒見過的東西,比如這個活潑的小仙人掌。從官方放出的演示中可以看到,它在接收到人類的提示后,就會按照指令逐一拿起桌上的物品放進(jìn)冰箱。“機(jī)器人站著不語,只是一 ......

白交 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

與OpenAI斷交之后,Figure首個成果出爐:

Helix,一個端到端通用控制模型,它能讓機(jī)器人像人一樣感知、理解和行動。

只需自然語言提示,機(jī)器人就能拿起任何東西,哪怕是從沒見過的東西,比如這個活潑的小仙人掌。

從官方放出的演示中可以看到,它在接收到人類的提示后,就會按照指令逐一拿起桌上的物品放進(jìn)冰箱。

斷交OpenAI后,人形機(jī)器人獨(dú)角獸首秀:一個神經(jīng)網(wǎng)絡(luò)控制整個上身

“機(jī)器人站著不語,只是一味地執(zhí)行指令”

兩個機(jī)器人也可以共同協(xié)作,但有意思的一點是,它們竟然共用同一組神經(jīng)網(wǎng)絡(luò)。

來看看具體是怎么一回事。

像人類一樣思考的AI從技術(shù)報告上看,這個通用“視覺-語言-動作 (VLA) 模型完成了一系列的首創(chuàng):

整個上身控制,Helix是首個能對整個上身(包括手腕、軀干、頭部和各個手指)進(jìn)行高速率(200Hz)連續(xù)控制的VLA。

多機(jī)器人協(xié)作,第一個同時在兩個機(jī)器人上運(yùn)行的 VLA,使它們能夠使用從未見過的物品解決共享的、遠(yuǎn)程操作任務(wù)。

拿起任何東西,只需按照自然語言提示,就能拿起幾乎任何小型家居物品,包括數(shù)千種它們從未遇到過的物品。

一個神經(jīng)網(wǎng)絡(luò),與之前的方法不同,Helix 使用一組神經(jīng)網(wǎng)絡(luò)權(quán)重來學(xué)習(xí)所有行為(挑選和放置物品、使用抽屜和冰箱以及跨機(jī)器人交互),而無需任何針對特定任務(wù)的微調(diào)。

可立即商業(yè)化部署,第一款完全在嵌入式低功耗 GPU 上運(yùn)行的 VLA,可立即進(jìn)行商業(yè)部署。

Helix由兩個系統(tǒng)組成,兩個系統(tǒng)經(jīng)過端到端訓(xùn)練,并且可以進(jìn)行通信。

斷交OpenAI后,人形機(jī)器人獨(dú)角獸首秀:一個神經(jīng)網(wǎng)絡(luò)控制整個上身

系統(tǒng)2:VLM主干,基于在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練的7B開源VLM,它將單目機(jī)器人圖像和機(jī)器人狀態(tài)信息(包括手腕姿勢和手指位置)投射到視覺語言嵌入空間后進(jìn)行處理。

工作頻率為 7-9 Hz,用于場景理解和語言理解,可對不同對象和語境進(jìn)行廣泛的泛化。

系統(tǒng)1:80M參數(shù)的交叉注意力Transformer,用于處理底層控制。它依靠一個完全卷積、多尺度的視覺骨干網(wǎng)進(jìn)行視覺處理,該骨干網(wǎng)由完全在模擬中完成的預(yù)訓(xùn)練初始化而成。

將 S2 生成的潛在語義表征轉(zhuǎn)化為精確的連續(xù)機(jī)器人動作,包括所需的手腕姿勢、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。速度為200Hz。

他們在動作空間中附加了一個合成的 “任務(wù)完成百分比 ”動作,使 Helix 能夠預(yù)測自己的終止條件,從而更容易對多個任務(wù)進(jìn)行排序。

這種解耦架構(gòu)允許每個系統(tǒng)在其最佳時間尺度上運(yùn)行。S2可以“慢慢思考”高級目標(biāo),而 S1 可以“快速思考”以實時執(zhí)行和調(diào)整動作。

訓(xùn)練過程是完全端到端,從原始像素和文本命令映射到具有標(biāo)準(zhǔn)回歸損失的連續(xù)動作。

并且Helix 不需要針對特定任務(wù)進(jìn)行調(diào)整;它保持單個訓(xùn)練階段和單個神經(jīng)網(wǎng)絡(luò)權(quán)重集,無需單獨(dú)的動作頭或每個任務(wù)的微調(diào)階段。

人形機(jī)器人的Scaling LawCEO透露,這項工作他們花費(fèi)了一年多的時間,旨在解決通用機(jī)器人問題/p>像人類一樣,Helix可以理解語音、推理問題并能抓住任何物體。

而就在兩周前,他們宣布取消與OpenAI之間的合作關(guān)系,當(dāng)時就透露會在接下來的30天展示“沒人在人形機(jī)器人上見過的東西”

如今已經(jīng)揭曉,就是Helix。

斷交OpenAI后,人形機(jī)器人獨(dú)角獸首秀:一個神經(jīng)網(wǎng)絡(luò)控制整個上身

值得一提的是,Helix還代表著一種新型的Scaling Law。

他們認(rèn)為,家庭是機(jī)器人面臨的最大挑戰(zhàn)。與受控的工業(yè)環(huán)境不同,家里堆滿了無數(shù)的物品。為了讓機(jī)器人在家庭中發(fā)揮作用,它們需要能夠按需產(chǎn)生智能的新行為,尤其是對它們從未見過的物體。

當(dāng)前,教機(jī)器人一種新行為需要大量的人力。要么是數(shù)小時的博士級專家手動編程,要么是數(shù)千次演示。

這兩種方式成本都很高,所以都是行不通的(dont work)。

斷交OpenAI后,人形機(jī)器人獨(dú)角獸首秀:一個神經(jīng)網(wǎng)絡(luò)控制整個上身

與早期的機(jī)器人系統(tǒng)不同,Helix能夠即時生成長視界、協(xié)作、靈巧的操作,而無需任何特定任務(wù)的演示或大量的手動編程。

Helix 表現(xiàn)出強(qiáng)大的對象泛化能力,能夠拾取數(shù)千種形狀、大小、顏色和材料特性各異的新奇家居用品,而這些物品在訓(xùn)練中從未見過,只需用自然語言詢問即可。

這意味著,這代表 Figure 在擴(kuò)展人形機(jī)器人行為方面邁出了變革性的一步。

到時候,當(dāng)Helix 擴(kuò)大1000倍、機(jī)器人擴(kuò)展到十億級別,會是什么樣子?有點子期待。

參考鏈接:[1]https://www.figure.ai/news/helix[2]https://x.com/adcock_brett/status/1892577936869327233

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港