財(cái)聯(lián)社2月20日訊(編輯 史正丞)在2月初終結(jié)與OpenAI的AI模型合作后,美國(guó)機(jī)器人創(chuàng)業(yè)公司Figure AI如期在周四公開(kāi)了背后的原因:公司已經(jīng)有更厲害的通用具身智能模型Helix。
(來(lái)源:Figure AI)
Figure AI表示,Helix是首款能對(duì)整個(gè)人形機(jī)器人上半身(包括頭部、軀干、手腕和手指)進(jìn)行高頻率、連續(xù)控制的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型。通過(guò)直接將視覺(jué)語(yǔ)言模型中捕獲的豐富語(yǔ)義知識(shí),直接轉(zhuǎn)化為機(jī)器人動(dòng)作,克服了人形機(jī)器人領(lǐng)域的多個(gè)長(zhǎng)期挑戰(zhàn)至少不需要為機(jī)器人的每一個(gè)動(dòng)作進(jìn)行大量訓(xùn)練了。
為了解決視覺(jué)語(yǔ)言模型“通用、但不快速”,和機(jī)器人視覺(jué)運(yùn)動(dòng)策略“快速、但不通用”的矛盾,F(xiàn)igure通過(guò)建立一套互補(bǔ)的系統(tǒng)進(jìn)行權(quán)衡。兩套系統(tǒng)通過(guò)端到端訓(xùn)練以進(jìn)行通信。
如下圖所示,系統(tǒng)2是開(kāi)源、開(kāi)放權(quán)重的70億參數(shù)量端側(cè)互聯(lián)網(wǎng)預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型,用于理解場(chǎng)景和自然語(yǔ)言;系統(tǒng)1是一個(gè)8000萬(wàn)參數(shù)量的快速反應(yīng)視覺(jué)運(yùn)動(dòng)策略,將系統(tǒng)2理解的語(yǔ)義轉(zhuǎn)化為每秒200次的精確連續(xù)機(jī)器人動(dòng)作。
(來(lái)源:Figure AI)
Figure介紹稱(chēng),訓(xùn)練Helix僅僅用了500個(gè)小時(shí)的高質(zhì)量監(jiān)督數(shù)據(jù),總量連之前收集的VLA數(shù)據(jù)集5%都不到,并且不需要多機(jī)器人數(shù)據(jù)或多階段訓(xùn)練。
作為這項(xiàng)科技突破的結(jié)果,搭載Helix的機(jī)器人現(xiàn)在可以根據(jù)自然語(yǔ)言指令,識(shí)別并拾取幾乎所有的小型家居物品,包括機(jī)器人從未見(jiàn)過(guò)的成千上萬(wàn)物品。在公司給出的案例中,機(jī)器人在接受“拿起那個(gè)仙人掌”、“拿起沙漠里的東西”時(shí),都能選擇最接近玩具的手,成功從一堆物品中拎出仙人掌玩具。
在實(shí)際操作中,配備Helix的Figure機(jī)器人通過(guò)簡(jiǎn)單的“撿起XX”指令,成功處理了成千上萬(wàn)次的任務(wù),同時(shí)無(wú)需任何提前演示或額外編程。
當(dāng)然,以上都是常規(guī)操作,接下來(lái)就是展現(xiàn)技術(shù)的時(shí)刻了。
Figure介紹稱(chēng),Helix是首款可以在人形機(jī)器人上協(xié)同運(yùn)行的AI模型,使得兩臺(tái)機(jī)器人可以協(xié)作解決一個(gè)共享的、長(zhǎng)期的操作任務(wù)。
在演示案例中,兩臺(tái)模型權(quán)重相同的Figure機(jī)器人需要面對(duì)一堆首次見(jiàn)到的雜物,自行決定應(yīng)該放在柜子、冰箱、盆子等收納位置。
本次挑戰(zhàn)的難點(diǎn),是研究員故意將一些物品放在另一個(gè)機(jī)器人面前,這意味著需要兩臺(tái)機(jī)器人協(xié)作才能完成擺放。
演示中,機(jī)器人之間不僅能互相理解對(duì)方和銜接動(dòng)作,似乎還有一種特殊的羈絆在交接物品時(shí),兩臺(tái)機(jī)器人一定要互相對(duì)看一眼,確認(rèn)彼此的“眼神”。
在演示的最后,F(xiàn)igure也在擺放水果的操作中展現(xiàn)出更高水平的協(xié)作:左邊的機(jī)器人把果盆拉過(guò)來(lái),右邊的機(jī)器人順手把水果放進(jìn)去,然后左邊的機(jī)器人再把果盆放回原位。
結(jié)束首次VLA模型在多機(jī)器人之間靈活、擴(kuò)展的協(xié)作操作后,F(xiàn)igure強(qiáng)調(diào)這僅僅是觸及了“可能性的表面”,公司渴望看到將Helix規(guī)模擴(kuò)大1000倍后會(huì)發(fā)生什么。
Figure介紹稱(chēng),Helix完全能夠在嵌入式低功耗GPU上運(yùn)行,現(xiàn)在立即可以進(jìn)行商業(yè)部署。
根據(jù)早些時(shí)候的報(bào)道,在發(fā)布機(jī)器人AI系統(tǒng)演示的同時(shí),F(xiàn)igure正在進(jìn)行一輪目標(biāo)15億美元的融資,估值將達(dá)到395億美元。作為對(duì)比,去年該公司融資時(shí)的估值僅為26億美元,光從這兩個(gè)數(shù)字就能感受到當(dāng)下機(jī)器人賽道的爆火情緒。
(財(cái)聯(lián)社 史正丞 )