新智元報道
編輯:LRST【新智元導(dǎo)讀】近日,來自哥大的研究人員開發(fā)出了一種新AI系統(tǒng),讓機(jī)器人通過普通攝像頭和深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自我建模、運(yùn)動規(guī)劃和自我修復(fù),突破了傳統(tǒng)機(jī)器人依賴工程師調(diào)整的局限,使機(jī)器人能像人類一樣自主學(xué)習(xí)和適應(yīng)環(huán)境變化,為具身智能發(fā)展帶來新范式!肝覀?nèi)祟惒荒艹掷m(xù)呵護(hù)機(jī)器人、為他們修理損壞的部件或調(diào)整性能的負(fù)擔(dān)。機(jī)器人需要學(xué)會‘照顧’自己,才能真正發(fā)揮作用。這就是自我建模技術(shù)如此重要的原因!姑绹鐐惐葋喆髮W(xué)機(jī)器人學(xué)教授霍德利普森的這句話,揭示了機(jī)器人技術(shù)發(fā)展的根本困境。
在最新發(fā)表于《自然機(jī)器智能》的研究中,中國學(xué)者胡宇航帶領(lǐng)的團(tuán)隊(duì)成功讓機(jī)器人獲得了「自我學(xué)習(xí)」能力:僅憑普通攝像頭,就能像孩子觀察自己的手腳般理解身體構(gòu)造,甚至在「受傷」時自主調(diào)整和恢復(fù)。
論文鏈接:https://www.nature.com/articles/s42256-025-01006-w
今天的人工智能與機(jī)器人更像是高度訓(xùn)練的工人,每當(dāng)我們需要一個機(jī)器人完成特定任務(wù),工程師就必須完成機(jī)械三維建模、建立仿真模型、編寫控制算法,再根據(jù)特定任務(wù)完成強(qiáng)化學(xué)習(xí)。
如果機(jī)器人硬件結(jié)構(gòu)改變或者損壞,例如增加新的負(fù)載或機(jī)械臂彎曲,往往無法自我適應(yīng)和修復(fù),必須依賴工程師進(jìn)行調(diào)整。
但如果機(jī)器人一開始就能像人類一樣自己學(xué)習(xí)的形態(tài)和運(yùn)動呢?
機(jī)器人「照鏡子」學(xué)會認(rèn)識自己
人類從來不需要依賴精準(zhǔn)的三維模型或關(guān)節(jié)角度控制來掌握技能,我們通過眼睛看、嘗試、反饋來理解自己的身體和任務(wù)。視覺對環(huán)境的理解提供了一種仿真能力,我們可以通過在大腦中想象畫面做各種仿真測試。
比如從貨架上拿東西,你不需要運(yùn)用任何數(shù)學(xué)模型,就能在大腦中想象出來你到貨架前取下東西的整個流程,因?yàn)槟愕囊曈X能力和自我認(rèn)知在其中幫助到了你。
現(xiàn)在,機(jī)器人也可以做到這一點(diǎn)。
研究人員開發(fā)了一種新的AI系統(tǒng),讓機(jī)器人通過一個普通的攝像頭和三個模仿大腦的人工智能系統(tǒng)(稱為深度神經(jīng)網(wǎng)絡(luò)),通過給定指令預(yù)測出機(jī)器人自己在三維空間中占據(jù)的位置。
機(jī)器人利用「FFKSM」(Free Form Kinematic Self-Model)技術(shù),可以實(shí)現(xiàn):
觀察自己,理解身體的形態(tài)和運(yùn)動方式。
規(guī)劃自己的動作,無需預(yù)設(shè)物理引擎或仿真。
在受損后自我修正,比如如果手臂彎曲,機(jī)器人能識別變化并調(diào)整行動,而不需要工程師重新編程。
圖示:A,一個機(jī)器人看著鏡子概念圖,機(jī)器人通過移動身體觀察變化來建立自己的模型。B,利用該模型,機(jī)器人可以預(yù)測自己的形態(tài)并執(zhí)行各種操作任務(wù)。C,F(xiàn)FKSM 實(shí)現(xiàn)原理。該模型包含三個深度神經(jīng)網(wǎng)絡(luò):坐標(biāo)編碼器、運(yùn)動編碼器和預(yù)測模塊。通過處理 3D 點(diǎn)坐標(biāo)和關(guān)節(jié)角度,它可以預(yù)測查詢點(diǎn)的密度和可見性。然后使用此信息來渲染 PRED 預(yù)測圖像,并將其與分段二進(jìn)制圖像 (GT) 進(jìn)行比較以進(jìn)行訓(xùn)練。
這項(xiàng)能力徹底改變了對機(jī)器人的定義和理解方式從被動執(zhí)行任務(wù)的工具,變成主動學(xué)習(xí)、適應(yīng)和調(diào)整。
具身智能的三大困局與自我建模技術(shù)破解之道
困局1:數(shù)據(jù)與物理實(shí)體的割裂現(xiàn)狀:當(dāng)前具身智能依賴海量訓(xùn)練數(shù)據(jù),但不同機(jī)器人的機(jī)械結(jié)構(gòu)、傳感器配置差異導(dǎo)致數(shù)據(jù)難以復(fù)用。
突破:FFKSM 讓機(jī)器人通過攝像頭觀察自身運(yùn)動,并構(gòu)建通用的自我表征,不依賴手工定義的運(yùn)動模型。這相當(dāng)于為機(jī)器人創(chuàng)造了一種跨平臺的「機(jī)器語」:無論是四足機(jī)器人、雙足機(jī)器人,甚至是機(jī)械臂,它們都能將自身運(yùn)動轉(zhuǎn)換為統(tǒng)一的認(rèn)知框架。
困局2:運(yùn)動模型的自我更新
現(xiàn)狀:傳統(tǒng)具身智能需預(yù)編程物理參數(shù)(如逆運(yùn)動學(xué)模型與關(guān)節(jié)坐標(biāo)),但現(xiàn)實(shí)世界的磨損、負(fù)載變化常使預(yù)設(shè)模型失效。
突破:動態(tài)的自我建模技術(shù)使機(jī)器人像生物般持續(xù)感知身體狀態(tài)。當(dāng)工業(yè)機(jī)械臂因金屬疲勞產(chǎn)生微小形變時,系統(tǒng)能通過視覺觀測自主更新運(yùn)動模型。
困局3:Sim2Real問題
現(xiàn)狀:現(xiàn)有系統(tǒng)需在仿真環(huán)境中預(yù)訓(xùn)練數(shù)月,但移植到實(shí)體機(jī)器人時仍面臨sim2real(虛擬到現(xiàn)實(shí))差異。
突破:實(shí)時在線建模,實(shí)現(xiàn)「所見即所得」的學(xué)習(xí)范式,實(shí)現(xiàn)欠驅(qū)動系統(tǒng)和柔性機(jī)器人的仿真(包括人臉機(jī)器人)。
具身智能的新范式:從「功能機(jī)器」到「認(rèn)知生命體」
認(rèn)知維度:傳統(tǒng)系統(tǒng)通過編碼規(guī)則理解世界(如用DH參數(shù)法描述機(jī)械臂運(yùn)動),新技術(shù)則建立基于視覺-運(yùn)動關(guān)聯(lián)的直覺認(rèn)知,更接近生物進(jìn)化出的本體感知。可解釋突破:三個深度神經(jīng)網(wǎng)絡(luò)的協(xié)同機(jī)制(坐標(biāo)編碼→運(yùn)動編碼→預(yù)測驗(yàn)證)形成了類腦的認(rèn)知閉環(huán)。當(dāng)機(jī)器人選擇繞過障礙物時,研究者可追溯其「思考」路徑:先自我模擬機(jī)械臂擺動幅度→計算碰撞概率→生成避讓軌跡。
倫理前瞻:胡宇航在采訪中特別強(qiáng)調(diào):「我們在系統(tǒng)中設(shè)置了認(rèn)知邊界約束,確保自我建模僅用于物理運(yùn)動優(yōu)化,這是智能體獲得‘身體自由’的前提條件!
應(yīng)用場景
人形機(jī)器人:從適應(yīng)環(huán)境與任務(wù)
想象一個人形機(jī)器人在戶外行走,突然遇到一片光滑的冰面,或者執(zhí)行任務(wù)時因額外負(fù)載導(dǎo)致身體平衡發(fā)生變化。
傳統(tǒng)機(jī)器人在這種情況下可能會因預(yù)設(shè)步態(tài)不適應(yīng)新環(huán)境而滑倒或失去平衡,必須依賴額外的傳感器或人為干預(yù)來調(diào)整動作。
然而,具備自我感知和自我建模能力的機(jī)器人能夠?qū)崟r識別環(huán)境變化,比如檢測地面的摩擦力降低,或感知自身重量的變化。機(jī)器人會像人類一樣調(diào)整姿態(tài)就像我們在濕滑地面上會本能地放慢步伐、調(diào)整平衡,而在背上背包時會自動調(diào)整站姿以防止失衡。
極端環(huán)境:從易受損失到高度魯棒
在外太空或極端場景,工程師無法遠(yuǎn)程修復(fù)探測器,微小的機(jī)械故障可能導(dǎo)致整個任務(wù)失敗。
例如,火星車的機(jī)械臂可能因風(fēng)沙卡住,或輪子受到障礙物撞擊而變形,導(dǎo)致行動受阻。新一代自我建模機(jī)器人可以像人類一樣更新運(yùn)動模型就像人在肌肉拉傷時會改變步態(tài),努力走到醫(yī)務(wù)室。
這種機(jī)器人可以檢測自身運(yùn)動異常,動態(tài)調(diào)整控制策略,即使某個部件受損,也能找到替代性運(yùn)動方式,確保任務(wù)繼續(xù)進(jìn)行。這種高度魯棒的能力,將極大提升機(jī)器人在極端環(huán)境下的生存能力。
人臉機(jī)器人:自監(jiān)督學(xué)習(xí)突破人工建模瓶頸
柔性材料的建模一直是人形機(jī)器人領(lǐng)域的難題,尤其在面部仿真和動態(tài)表情生成方面,傳統(tǒng)方法依賴復(fù)雜的物理建模和人工調(diào)校,難以精準(zhǔn)模擬人臉的自然運(yùn)動。全新的自監(jiān)督學(xué)習(xí)方法將徹底改變這一局面,使人臉機(jī)器人不再依賴人工建模,而是通過視覺學(xué)習(xí)自身結(jié)構(gòu)和運(yùn)動方式,自主優(yōu)化表情控制模型。
這一突破不僅讓機(jī)器人面部表情更加自然,還能讓機(jī)器人自主調(diào)整不同情緒狀態(tài)下的微表情和肌肉動態(tài),從而大幅減少「恐怖谷效應(yīng)」。最終,這項(xiàng)技術(shù)將推動更具擬人感、更自然、更生動的機(jī)器人交互體驗(yàn),加速人機(jī)共存時代的到來。
機(jī)器人的「運(yùn)動自我意識」(Kinematic Self-Awareness)這項(xiàng)研究中所展示的能力是哥倫比亞大學(xué)團(tuán)隊(duì)在過去二十年中發(fā)布的一系列項(xiàng)目中的最新一個,過去這些項(xiàng)目中的機(jī)器人正在學(xué)習(xí)如何更好地利用攝像頭和其他傳感器進(jìn)行「自我建模」。
2006年,他們的機(jī)器人能夠通過觀察來創(chuàng)建簡單的、類似火柴人形狀的自我模擬。大約十年前,機(jī)器人開始使用多臺攝像機(jī)創(chuàng)建保真度更高的模型。
在這項(xiàng)研究中,機(jī)器人僅使用單個普通攝像機(jī)的視頻就能創(chuàng)建一個全面的運(yùn)動自我模型,就像照鏡子一樣。研究人員將這種新發(fā)現(xiàn)的能力稱為運(yùn)動自我意識。
Hod Lipson解釋,「我們?nèi)祟惐灸艿匾庾R到自己的身體;我們可以想象自己在未來的樣子,并在現(xiàn)實(shí)中執(zhí)行這些行為之前就將行為的后果形象化,最終,我們希望賦予機(jī)器人類似的想象自己的能力。因?yàn)橐坏┠隳芟胂笞约涸谖磥淼臉幼,你所能做的事情就沒有限制了。」
華人作者介紹
第一作者胡宇航,哥倫比亞大學(xué)博士生。2024年,以第一作者身份在《科學(xué)機(jī)器人學(xué)》(Science Robotics)發(fā)表研究Human-Robot Facial Coexpression。
胡宇航:我一直對人類和動物如何理解世界感到著迷不是依靠數(shù)學(xué)模型,而是通過觀察、嘗試和適應(yīng)。我們此前發(fā)表在《科學(xué)機(jī)器人學(xué)》上的研究,利用「鏡子」讓我們的面部機(jī)器人 Emo 通過視覺學(xué)習(xí)人類的表情。
現(xiàn)在,我們把這個想法進(jìn)一步拓展:讓機(jī)器人僅通過視覺觀察自身,實(shí)現(xiàn)自我建模、運(yùn)動規(guī)劃,并在受損后自主恢復(fù)。這項(xiàng)突破讓我充滿期待機(jī)器人不再只是執(zhí)行命令,而是能夠與我們一起進(jìn)化。
這不僅比讓強(qiáng)化學(xué)習(xí)訓(xùn)練機(jī)器人掌握某項(xiàng)技能更有趣,更重要的是,它觸及了智能本質(zhì)的核心問題。如果機(jī)器人能夠像人類一樣,通過視覺感知和理解自身在物理世界中的存在,那么它們或許已經(jīng)邁出了「自我意識」的第一步。
參考資料:https://www.nature.com/articles/s42256-025-01006-whttps://www.engineering.columbia.edu/about/news/robots-learn-how-move-watching-themselves-0