劃重點(diǎn)
01波士頓動(dòng)力人形機(jī)器人Atlas在無遠(yuǎn)程遙控的情況下,成功完成了前后搬運(yùn)位置坐標(biāo)的分裝物件任務(wù)。
02Atlas具備360°旋轉(zhuǎn)的頭部、上半身和髖關(guān)節(jié),可在集裝箱和移動(dòng)小車間自主移動(dòng)發(fā)動(dòng)機(jī)蓋。
03除此之外,Atlas還能結(jié)合視覺、力和感知來檢測環(huán)境變化和動(dòng)作故障并做出反應(yīng)。
04網(wǎng)友們對Atlas的自主能力表示驚嘆,同時(shí)也關(guān)注其與特斯拉人形機(jī)器人Optimus的差距。
05目前,波士頓動(dòng)力和特斯拉在人形機(jī)器人領(lǐng)域各自擁有優(yōu)勢,最終走向消費(fèi)市場仍需量產(chǎn)方面的突破。
以上內(nèi)容由大模型生成,僅供參考
登上油管熱榜,吸引50萬網(wǎng)友圍觀,波士頓動(dòng)力人形機(jī)器人又放大招了
無遠(yuǎn)程遙控(Fully Autonomous),Atlas可完全自主打工了。
只需告訴Atlas前后搬運(yùn)的位置坐標(biāo),它就能全自動(dòng)分裝物件,動(dòng)作be like:
而在Atlas的第一視角下,它看到的是醬紫的:
面對“刁難”(物件在底層位置),Atlas直接一個(gè)帥氣下蹲,再次成功完成任務(wù)。
更有意思的是,當(dāng)發(fā)現(xiàn)自己弄錯(cuò)位置后,Atlas突然以一個(gè)鬼畜完成了瞬間糾錯(cuò)。(笑死,怪突然的)
總之,在近3分鐘demo中,Atlas進(jìn)行了一系列秀肌肉操作:頭部、上半身、髖關(guān)節(jié)都能360°旋轉(zhuǎn),可隨時(shí)轉(zhuǎn)向、倒退行走……
有網(wǎng)友驚呼,其他機(jī)器人還在學(xué)走路,Atlas已經(jīng)開始朝九晚五,甚至007式打工了!
同行(通用倉庫機(jī)器人nimble ai創(chuàng)始人)大贊:Atlas已經(jīng)遙遙領(lǐng)先了。
只有機(jī)器人專家才知道Atlas有多棒
網(wǎng)友:完全自主?你引起了我的注意自從今年4月宣布改液壓為電驅(qū)后,這是波士頓動(dòng)力人形機(jī)器人為數(shù)不多的露面。
上一次還是8月底,他們展示了Atlas能夠一口氣做俯臥撐、深蹲等熱身運(yùn)動(dòng),當(dāng)時(shí)就震驚了上百萬網(wǎng)友。
而在最新demo中,Atlas又瞄準(zhǔn)了自動(dòng)化控制,現(xiàn)在它能在集裝箱和移動(dòng)小車間自主移動(dòng)發(fā)動(dòng)機(jī)蓋了。
據(jù)波士頓動(dòng)力介紹,Atlas使用機(jī)器學(xué)習(xí)視覺模型來檢測和定位環(huán)境固定裝置和單個(gè)箱子,并且會(huì)使用專門的抓取策略,通過不斷估計(jì)被操縱物體的狀態(tài)來完成任務(wù)。
機(jī)器人能夠結(jié)合視覺、力和感知來檢測環(huán)境變化(如移動(dòng)固定裝置)和動(dòng)作故障(如未能插入蓋子、絆倒、環(huán)境碰撞)并做出反應(yīng)。
看完一系列最新表現(xiàn),果不其然又驚倒了一片網(wǎng)友:
完全自主?現(xiàn)在你引起了我的注意
網(wǎng)友們也是紛紛cue起了特斯拉人形機(jī)器人Optimus~
前一陣,Optimus在特斯拉的發(fā)布會(huì)上同樣大秀肌肉(開場熱舞、與人交談猜丁殼、倒酒等一個(gè)不落),不過最后被多方證明存在現(xiàn)場遠(yuǎn)程操控。
后來特斯拉也發(fā)布了一個(gè)展示Optimus自主導(dǎo)航的demo:
對于這兩家人形機(jī)器人領(lǐng)域同樣炙手可熱的競爭對手,網(wǎng)友們也開始各自站臺(tái),并最終達(dá)成了一個(gè)“共識(shí)”。
二者的差距在于量產(chǎn)。波士頓動(dòng)力單兵能力強(qiáng),而特斯拉在商業(yè)化量產(chǎn)方面更具優(yōu)勢。
背后的邏輯也很簡單,人形機(jī)器人最終還是要走向消費(fèi)市場。
不過不管怎樣,Atlas展現(xiàn)的細(xì)節(jié)已十分驚艷,比如可以360°旋轉(zhuǎn)的身體、頭部。
雖然也有人吐槽這很詭異,不過大多數(shù)人表示看好:
人形機(jī)器人能夠被設(shè)計(jì)而不是進(jìn)化,意味著一旦我們弄清楚工程原理,各種變形金剛和驅(qū)魔人式的能力都可能發(fā)生。
另外,還有人疑惑為什么Atlas不搞個(gè)360°全景攝像頭,還需要轉(zhuǎn)動(dòng)頭部呢?
對此,有網(wǎng)友推測最大原因還是控成本。
更高分辨率的深度相機(jī)價(jià)格昂貴(帶寬和計(jì)算),因此將超密集傳感器限制在工作空間的位置是很有意義的。
實(shí)在不行,也可以“低質(zhì)量的360°全景視覺+面向單一方向的高質(zhì)量相機(jī)/激光雷達(dá)”(網(wǎng)友支招有)。
One More Thing在reddit網(wǎng)友一片熱議中,部分網(wǎng)友發(fā)出了靈魂拷問:
機(jī)器人完成這種任務(wù)(分裝物件)好像沒啥大意義?能不能更貼近現(xiàn)實(shí)生活。
對此,也有人對Atlas采用的技術(shù)表達(dá)擔(dān)憂:基于點(diǎn)和規(guī)劃器/優(yōu)化器在泛化能力上可能不如神經(jīng)網(wǎng)絡(luò)等。
且就在剛剛,英偉達(dá)新發(fā)布了HOVER,一個(gè)1.5M參數(shù)的神經(jīng)網(wǎng)絡(luò)控制器,用于人形機(jī)器人的全身運(yùn)動(dòng)和操作協(xié)調(diào)。
據(jù)負(fù)責(zé)英偉達(dá)具身智能實(shí)驗(yàn)室(GEAR)的Jim Fan介紹:
人類在行走、保持平衡以及操縱四肢到達(dá)期望位置時(shí),需要大量的潛意識(shí)處理。我們在HOVER中捕捉了這種“潛意識(shí)”,這是一個(gè)單一模型,學(xué)習(xí)如何協(xié)調(diào)人形機(jī)器人的電機(jī)以支持運(yùn)動(dòng)和操縱。
我們在NVIDIA Isaac中訓(xùn)練了HOVER,這是一個(gè)GPU驅(qū)動(dòng)的仿真套件,能夠?qū)崿F(xiàn)比現(xiàn)實(shí)時(shí)間快10000倍的物理模擬速度。
為了直觀理解這個(gè)數(shù)字,機(jī)器人在虛擬“道場”中經(jīng)歷了一年的密集訓(xùn)練,但在一塊GPU卡上僅花費(fèi)了大約50分鐘的真實(shí)時(shí)間。然后,神經(jīng)網(wǎng)絡(luò)無需微調(diào)即可零樣本遷移到現(xiàn)實(shí)世界。
簡單說,HOVER可以被“提示”執(zhí)行各種指令,英偉達(dá)稱之為“控制模式”。比如:
頭部和手部姿勢:可以通過XR設(shè)備如蘋果的Vision Pro捕捉
全身姿勢:通過動(dòng)作捕捉或RGB相機(jī)
全身關(guān)節(jié)角度:外骨骼
根速度指令:操縱桿
概括而言,HOVER提供了一個(gè)統(tǒng)一接口,允許使用任何方便的輸入設(shè)備來控制機(jī)器人。
它簡化了收集全身遙控操作數(shù)據(jù)的方式,以便于訓(xùn)練;且作為一個(gè)上游的視覺-語言-動(dòng)作模型,只要提供運(yùn)動(dòng)指令,HOVER就能將其轉(zhuǎn)換為高頻的低級(jí)電機(jī)信號(hào)。
對此,你怎么看?