在機(jī)器人技術(shù)領(lǐng)域,讓機(jī)器人在從未見過(guò)的環(huán)境中執(zhí)行任務(wù)一直是一個(gè)棘手的問(wèn)題。
一般來(lái)說(shuō),研究人員需要針對(duì)每個(gè)新環(huán)境對(duì)機(jī)器人進(jìn)行額外的訓(xùn)練,這個(gè)過(guò)程既耗時(shí)又昂貴。然而,最近的一項(xiàng)新研究為解決這一難題帶來(lái)了新的希望。
美國(guó)紐約大學(xué)、Meta 和機(jī)器人公司 Hello Robot 的研究團(tuán)隊(duì)開發(fā)了一系列 AI 模型,稱為機(jī)器人實(shí)用模型(Robot Utility Models,RUMs)。
這些模型能夠教導(dǎo)機(jī)器人在全新的環(huán)境中完成基本任務(wù),而無(wú)需進(jìn)一步的訓(xùn)練或微調(diào)。
研究團(tuán)隊(duì)訓(xùn)練了五個(gè) RUMs,分別用于執(zhí)行開門、開抽屜、拾取紙巾、拾取紙袋以及重新擺正圓柱形物體等任務(wù)。令人驚喜的是,這些模型在未知環(huán)境中的平均成功率高達(dá) 90%。
RUMs 的核心優(yōu)勢(shì)在于其零樣本學(xué)習(xí)能力。這意味著機(jī)器人可以直接推廣到新環(huán)境中,而無(wú)需任何額外的調(diào)整。
紐約大學(xué)博士生馬希沙菲烏拉(Mahi Shafiullah)表示,這項(xiàng)研究聚焦于“如何教會(huì)機(jī)器人在任何地方打開任何門”。
圖 | 正在打開抽屜的機(jī)器人(來(lái)源:RUM 網(wǎng)站)
創(chuàng)建高效的 RUMs 涉及幾個(gè)關(guān)鍵步驟:
首先是數(shù)據(jù)收集。為了加快收集機(jī)器人學(xué)習(xí)新技能所需的數(shù)據(jù),研究團(tuán)隊(duì)使用了一種創(chuàng)新方法:將 iPhone 固定在便宜的拾取器上。依靠著這個(gè)簡(jiǎn)易設(shè)備,他們?cè)?40 個(gè)不同環(huán)境中(包括紐約市和澤西市的家庭里)為每個(gè)任務(wù)錄下了約 1000 次演示。
隨后,研究人員使用了五個(gè)數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)算法,創(chuàng)建了五個(gè) RUM 模型。這些模型被部署在名為 Stretch 的機(jī)器人上進(jìn)行測(cè)試。Stretch 由一個(gè)輪子、一根高桿和一個(gè)可伸縮的手臂組成,手臂上安裝了一部 iPhone。
在測(cè)試中,機(jī)器人最開始的任務(wù)完成率僅為 74.4%,研究人員通過(guò)使用 OpenAI 的 GPT-4o 大語(yǔ)言模型進(jìn)行自我檢查和重試,將成功率提高到了 90%。
這項(xiàng)研究所展示的 RUMs 模型展示了其在不同環(huán)境和任務(wù)中的廣泛適用性。同時(shí),通過(guò)使用廉價(jià)的商用機(jī)器人和普通智能手機(jī),它證明了表現(xiàn)優(yōu)秀的自動(dòng)化系統(tǒng)不一定需要昂貴的硬件。
研究人員表示,在現(xiàn)實(shí)世界中,這樣的零樣本學(xué)習(xí)能力可以大大減少在新環(huán)境中部署機(jī)器人所需的時(shí)間和資源。此外,利用大模型進(jìn)行自我檢查和錯(cuò)誤糾正,也展示了 AI 技術(shù)之間的協(xié)同效應(yīng)。
圖 | RUMs 模型是如何構(gòu)建的(來(lái)源:RUMs 網(wǎng)站)
莫希特什里達(dá)爾(Mohit Shridhar),是英國(guó)帝國(guó)理工學(xué)院一位專門研究機(jī)器人操作的科學(xué)家。
他評(píng)論道:“能看到它在這些多樣化的家庭和廚房中進(jìn)行評(píng)估是非常好的一件事,因?yàn)槿绻隳茏寵C(jī)器人在任何一間房子里工作,這是機(jī)器人技術(shù)想要實(shí)現(xiàn)的真正目標(biāo)。”
盡管 RUMs 取得了一些進(jìn)步,但研究人員也指出了一些挑戰(zhàn)和改進(jìn)空間。
例如,數(shù)據(jù)收集效率仍然有較大限制。雖然已經(jīng)開發(fā)了新工具來(lái)加速數(shù)據(jù)收集,但進(jìn)一步提高效率仍然是一個(gè)重要目標(biāo)。
此外,如何在更極端的環(huán)境變化下保持高表現(xiàn)仍需探索,任務(wù)的復(fù)雜性也有待進(jìn)一步提升。隨著機(jī)器人能力的提升,我們還需要更多關(guān)注安全性和道德問(wèn)題。
沙菲烏拉展望了 RUMs 的未來(lái)應(yīng)用:“我們的夢(mèng)想是,我可以訓(xùn)練一個(gè)模型,將其放到互聯(lián)網(wǎng)上,而你應(yīng)該能夠下載并在你家里的機(jī)器人上運(yùn)行它。”
這個(gè)愿景不僅可以作為構(gòu)建其他實(shí)用機(jī)器人模型的通用方法,還能以最少的成本教會(huì)機(jī)器人新技能,使未經(jīng)過(guò)專業(yè)訓(xùn)練的普通人也能在家中部署機(jī)器人。
為了推動(dòng) RUMs 在更廣泛的任務(wù)中的應(yīng)用,研究團(tuán)隊(duì)已經(jīng)開源了他們的代碼、數(shù)據(jù)、模型、硬件設(shè)計(jì)以及實(shí)驗(yàn)和部署視頻。這一舉措將有助于全球研究人員進(jìn)一步探索和改進(jìn)這一技術(shù)。
總的來(lái)說(shuō),這些新模型(RUMs)代表了機(jī)器人學(xué)習(xí)和適應(yīng)能力的一個(gè)重要突破。通過(guò)實(shí)現(xiàn)零樣本環(huán)境適應(yīng),RUMs 為機(jī)器人在復(fù)雜多變的現(xiàn)實(shí)世界中的應(yīng)用開辟了新的可能性。
這項(xiàng)技術(shù)不僅可能改變我們與機(jī)器人互動(dòng)的方式,還可能加速機(jī)器人技術(shù)在日常生活中的普及。
隨著技術(shù)的不斷進(jìn)步和更多研究的投入,我們可以期待看到更多智能、靈活且易于部署的機(jī)器人系統(tǒng)在各個(gè)領(lǐng)域發(fā)揮作用,從而推動(dòng)自動(dòng)化技術(shù)向前發(fā)展。
參考資料:
https://robotutilitymodels.com/
https://www.technologyreview.com/2024/09/20/1104233/ai-models-let-robots-carry-out-tasks-in-unfamiliar-environments/
排版:溪樹