展會(huì)信息港展會(huì)大全

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-25 07:54:07   瀏覽:149次  

導(dǎo)讀:大模型的風(fēng)終于吹到了機(jī)器人身上。剛剛,人形機(jī)器人初創(chuàng)公司 Figure AI 發(fā)布了新 AI 系統(tǒng) Helix,這是專為人形機(jī)器人設(shè)計(jì)的“視覺-語(yǔ)言-動(dòng)作”(Vision-Language-Action,VLA)模型,能夠讓機(jī)器人直接理解自然語(yǔ)言、解析視覺信息,并執(zhí)行相應(yīng)的動(dòng)作。(來(lái)源:Figure AI)Helix 是第一款對(duì)整個(gè)人形上身(包括手腕、軀干、頭部和各個(gè)手指)進(jìn)行高速率連續(xù)控制的 VLA 模型。簡(jiǎn)單來(lái) ......

大模型的風(fēng)終于吹到了機(jī)器人身上。

剛剛,人形機(jī)器人初創(chuàng)公司 Figure AI 發(fā)布了新 AI 系統(tǒng) Helix,這是專為人形機(jī)器人設(shè)計(jì)的“視覺-語(yǔ)言-動(dòng)作”(Vision-Language-Action,VLA)模型,能夠讓機(jī)器人直接理解自然語(yǔ)言、解析視覺信息,并執(zhí)行相應(yīng)的動(dòng)作。

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)

(來(lái)源:Figure AI)

Helix 是第一款對(duì)整個(gè)人形上身(包括手腕、軀干、頭部和各個(gè)手指)進(jìn)行高速率連續(xù)控制的 VLA 模型。

簡(jiǎn)單來(lái)說(shuō),這就像給機(jī)器人裝上了一個(gè)超級(jí)大腦,讓它們可以像人類一樣用眼睛觀察、用耳朵聽、用手操作,并且能在沒有特別訓(xùn)練的情況下完成全新的任務(wù)。

如果你覺得機(jī)器人還停留在那種“機(jī)械化執(zhí)行命令”、只能按照預(yù)設(shè)流程工作的階段,那 Figure AI 的新視頻可能會(huì)改變你的看法。

視頻中,雖然兩個(gè)機(jī)器人的動(dòng)作慢吞吞的,但它們對(duì)人類指令的理解十分到位,包括打開冰箱、拿起食物、擺放到恰當(dāng)?shù)奈恢茫踔吝能傳遞食物(協(xié)同合作)。

Figure AI 在 X 上寫道:“我們發(fā)現(xiàn),只要給機(jī)器人提示詞,我們就可以(讓它)拿起幾乎任何物體。”

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)

圖 | Figure AI 發(fā)布 Helix 模型(來(lái)源:X)

相比傳統(tǒng)的機(jī)器人控制方式,Helix 可以讓機(jī)器人具備更強(qiáng)的自主學(xué)習(xí)能力,不再局限于固定任務(wù),而是可以在各種場(chǎng)景中學(xué)習(xí)、適應(yīng)新挑戰(zhàn)。

這種能力得益于 Figure AI 的 S2+S1 雙系統(tǒng)架構(gòu),可對(duì)人形機(jī)器人的整個(gè)上半身進(jìn)行高速、靈巧的控制。

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)

圖 | Helix 的雙系統(tǒng)架構(gòu)(來(lái)源:Figure AI)

其中 S2 系統(tǒng)是一個(gè)機(jī)載互聯(lián)網(wǎng)預(yù)訓(xùn)練的視覺語(yǔ)言模型(VLM),以 7-9 Hz 的頻率運(yùn)行,用于場(chǎng)景理解和語(yǔ)言理解,從而實(shí)現(xiàn)跨對(duì)象和上下文的廣泛概括。

而 S1 系統(tǒng)負(fù)責(zé)快速反應(yīng)的視覺運(yùn)動(dòng)策略,將 S2 產(chǎn)生的潛在語(yǔ)義表征轉(zhuǎn)化為 200 Hz 的精確連續(xù)機(jī)器人動(dòng)作。換句話說(shuō)就是負(fù)責(zé)理解來(lái)自人類的語(yǔ)言指令,并結(jié)合視覺信息解析環(huán)境,實(shí)現(xiàn)自主決策并保證流暢的肢體協(xié)調(diào)。

“這種解耦架構(gòu)允許每個(gè)系統(tǒng)在其最佳時(shí)間尺度上運(yùn)行。S2 可以慢慢‘思考高級(jí)’目標(biāo),而 S1 可以‘快速思考’以實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作!盕igure AI 寫道。

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)

圖 | Figure AI 的 CEO 表示:“要讓機(jī)器人進(jìn)入千家萬(wàn)戶,我們需要在能力上實(shí)現(xiàn)重大進(jìn)展。”(來(lái)源:X)

據(jù) Figure AI 介紹,他們收集了高質(zhì)量的多機(jī)器人、多操作員數(shù)據(jù)集,其中包含各種遠(yuǎn)程操作行為,總共約 500 小時(shí)。

為了生成自然語(yǔ)言條件訓(xùn)練對(duì),F(xiàn)igure AI 使用自動(dòng)標(biāo)記 VLM 來(lái)生成 hindsight 指令。VLM 會(huì)處理來(lái)自機(jī)器人機(jī)載攝像頭的分段視頻片段,并提示:“你會(huì)給機(jī)器人什么指令來(lái)執(zhí)行此視頻中看到的動(dòng)作?”訓(xùn)練期間處理的所有物品均不包含在評(píng)估中,以防止污染。

Helix 系統(tǒng)由兩個(gè)主要組件組成:S2(VLM 主干)和 S1(潛在條件視覺運(yùn)動(dòng) Transformer)。

S2 建立在 7B 參數(shù)開源、開放權(quán)重的 VLM 上,該 VLM 已在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。它將單目機(jī)器人圖像和機(jī)器人狀態(tài)信息(包括手腕姿勢(shì)和手指位置)投影到視覺語(yǔ)言嵌入空間后進(jìn)行處理。

結(jié)合指定所需行為的自然語(yǔ)言命令,S2 將所有語(yǔ)義任務(wù)相關(guān)信息提煉為單個(gè)連續(xù)潛在向量,并傳遞給 S1 以調(diào)節(jié)其低級(jí)動(dòng)作。

S1 是一個(gè) 80M 參數(shù)交叉注意編碼器-解碼器 Transformer,用于處理低級(jí)控制。它依靠完全卷積、多尺度視覺主干進(jìn)行視覺處理,該主干通過(guò)完全在模擬中完成的預(yù)訓(xùn)練進(jìn)行初始化。

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)

圖 | 機(jī)器人可以撿起各種各樣的東西(來(lái)源:Figure AI)

雖然 S1 接收與 S2 相同的圖像和狀態(tài)輸入,但它以更高的頻率處理它們,以實(shí)現(xiàn)響應(yīng)更快的閉環(huán)控制。來(lái)自 S2 的潛在向量被投影到 S1 的標(biāo)記空間中,并沿著序列維度與來(lái)自 S1 視覺主干的視覺特征連接起來(lái),提供任務(wù)調(diào)節(jié)。

S1 以 200hz 的頻率輸出完整的人形機(jī)器人上半身控制,包括所需的手腕姿勢(shì)、手指屈曲和外展控制以及軀干和頭部方向目標(biāo)。他們?cè)趧?dòng)作空間中附加了一個(gè)合成的“任務(wù)完成百分比”動(dòng)作,使 Helix 能夠預(yù)測(cè)自己的終止條件,從而更容易對(duì)多個(gè)學(xué)習(xí)到的行為進(jìn)行排序。

通過(guò)端到端訓(xùn)練,Helix 能夠控制機(jī)器人,直接從視覺和語(yǔ)言輸入中推理出正確的行動(dòng),而無(wú)需手動(dòng)編寫具體任務(wù)指令,也不需要針對(duì)特定任務(wù)進(jìn)行調(diào)整。

Helix 的訓(xùn)練設(shè)計(jì)支持在 Figure 機(jī)器人上高效地并行部署模型,每個(gè)機(jī)器人都配備了雙低功耗嵌入式 GPU。推理管道分為 S2(高級(jí)潛在規(guī)劃)和 S1(低級(jí)控制)模型,每個(gè)模型都在專用 GPU 上運(yùn)行。

Figure AI 總結(jié)道:“Helix 以極少的資源實(shí)現(xiàn)了強(qiáng)大的對(duì)象泛化。我們總共使用約 500 小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù)來(lái)訓(xùn)練 Helix,這僅僅是之前收集的視覺-語(yǔ)言-動(dòng)作數(shù)據(jù)集的一小部分(

“踢掉”O(jiān)penAI之后,F(xiàn)igure AI推出Helix,讓機(jī)器人像人一樣思考和行動(dòng)

圖 | Figure AI 定義的新“機(jī)器人技能獲取”擴(kuò)展法則(來(lái)源:Figure AI)

早在 2 月 4 號(hào),F(xiàn)igure AI 就在為 Helix 的出現(xiàn)埋下伏筆。

當(dāng)時(shí),CEO 布雷特艾德考克(Brett Adcock)宣布“終止與 OpenAI 的合作”,并表示將向外界展示“人形機(jī)器人上從未見過(guò)的東西”。

與此同時(shí),據(jù)知情人士透露,F(xiàn)igure AI 似乎正在接洽投資者,計(jì)劃以 395 億美元的估值籌集 15 億美元。

Figure AI 拒絕發(fā)表評(píng)論,但如果屬實(shí),新一輪融資將使這家初創(chuàng)公司的估值大幅提升,去年該公司的估值為 26 億美元。Figure AI 之前的投資者包括微軟、OpenAI、英偉達(dá)和杰夫貝佐斯。

可以看出,F(xiàn)igure AI 對(duì) Helix 寄予厚望。他們希望這不只是一次普通的 AI 升級(jí),而是讓機(jī)器人更接近“真正的人類助手”。它可以控制機(jī)器人聽懂你的話、看懂世界、靈活行動(dòng),并且不斷學(xué)習(xí)新技能,讓機(jī)器人真正成為“聰明的 AI 勞動(dòng)力”。

當(dāng)然,演示視頻再天花亂墜,實(shí)際應(yīng)用中也可能頻頻翻車、不堪大用。這種事情我們已經(jīng)目睹無(wú)數(shù)次了。

因此,F(xiàn)igure AI 的 Helix 是否真的像宣傳的那樣靈活、聰明,我們還是要保持冷靜,等到它真正走向市場(chǎng)。

參考資料:

https://www.figure.ai/news/helix

https://www.bloomberg.com/news/articles/2025-02-14/robotics-startup-figure-ai-in-talks-for-new-funding-at-39-5-billion-valuation

https://x.com/Figure_robot/status/1892577876454801453

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港