如今,大多數(shù)人工智能驅(qū)動(dòng)的機(jī)器人都使用攝像頭來了解周圍環(huán)境并學(xué)習(xí)新任務(wù),但用聲音訓(xùn)練機(jī)器人正變得越來越容易,可以幫助它們更好地適應(yīng)能見度有限的任務(wù)和環(huán)境。
雖然視覺很重要,但在日常任務(wù)中,聲音實(shí)際上更有用,比如通過洋蔥在爐子上嘶嘶作響的聲音,來判斷鍋的溫度是否合適。
然而,用聲音訓(xùn)練機(jī)器人只在高度受控的實(shí)驗(yàn)室環(huán)境中進(jìn)行,而且這些技術(shù)落后于其他快速機(jī)器人訓(xùn)練方法。
美國斯坦福大學(xué)機(jī)器人與人工智能實(shí)驗(yàn)室的研究人員正著手改變這一現(xiàn)狀。他們首先建立了一個(gè)收集音頻數(shù)據(jù)的系統(tǒng),包括一個(gè) GoPro 相機(jī)和一個(gè)帶麥克風(fēng)的夾持器。該麥克風(fēng)可以過濾環(huán)境噪聲。
人類演示者會(huì)帶著設(shè)備完成各種家庭任務(wù),然后使用這些數(shù)據(jù)教機(jī)械臂如何獨(dú)自執(zhí)行任務(wù)。
該團(tuán)隊(duì)的新訓(xùn)練算法幫助機(jī)器人從音頻信號(hào)中收集線索,以更有效地執(zhí)行任務(wù)。
“到目前為止,機(jī)器人一直在無聲的視頻上訓(xùn)練。”斯坦福大學(xué)博士生、該研究的主要作者 Zeyi Liu 說,“但音頻中有很多有用的數(shù)據(jù)。”
為了測試如果機(jī)器人能夠“聽見”,以及它能取得更好的成績,研究人員選擇了四項(xiàng)任務(wù):在平底鍋里翻轉(zhuǎn)百吉餅、擦白板、把兩條尼龍條粘在一起、以及從杯子里倒出骰子。
在每項(xiàng)任務(wù)中,聲音都會(huì)提供攝像頭或觸覺傳感器難以處理的線索,比如知道橡皮擦是否正確接觸到白板,或者杯子里是否有骰子。
在對(duì)每項(xiàng)任務(wù)進(jìn)行幾百次演示后,研究小組比較了使用音頻訓(xùn)練和僅使用視覺訓(xùn)練的成功率。相關(guān)論文發(fā)表在一個(gè)未經(jīng)同行評(píng)審的預(yù)印本網(wǎng)站上。
當(dāng)在骰子測試中單獨(dú)使用視覺時(shí),機(jī)器人可以在 27% 的時(shí)間里準(zhǔn)確判斷杯子里是否有骰子,但當(dāng)包括聲音時(shí),這一數(shù)字上升到了 94%。
(來源:ZEYI LIU ET AL)
這項(xiàng)研究的實(shí)驗(yàn)室負(fù)責(zé)人 Shuran Song 表示,這不是第一次將音頻用于訓(xùn)練機(jī)器人,但這是朝著大規(guī)模訓(xùn)練邁出的一大步:“我們正在讓從‘真實(shí)世界’收集的音頻更容易使用,而不是局限于在實(shí)驗(yàn)室收集,因?yàn)檫@更耗時(shí)。”
這項(xiàng)研究表明,在用人工智能訓(xùn)練機(jī)器人的競賽中,音頻可能會(huì)成為更受歡迎的數(shù)據(jù)源。
通過使用模仿學(xué)習(xí)的方法,研究人員訓(xùn)練機(jī)器人的速度比以往任何時(shí)候都快。
他們向機(jī)器人展示了數(shù)百個(gè)正在進(jìn)行中的任務(wù)的示例,而不是人工編碼每個(gè)任務(wù)。
如果可以使用研究中的設(shè)備大規(guī)模收集音頻,這將給機(jī)器人一種全新的“感覺”,幫助它們更快地適應(yīng)能見度有限或看不見的環(huán)境。
美國密歇根大學(xué)機(jī)器人學(xué)副教授德米特里貝倫森(Dmitry Berenson)沒有參與這項(xiàng)研究,他說:“可以肯定地說,音頻是(機(jī)器人)感知研究中最缺失的地方。”
這是因?yàn)橛?xùn)練機(jī)器人操縱物體的大部分研究都是針對(duì)工業(yè)分揀和放置任務(wù),比如將物體分類到垃圾箱中。
這些任務(wù)并不會(huì)從聲音中獲得太多價(jià)值,而是更依賴于觸覺或視覺傳感器。
但貝倫森說,隨著機(jī)器人的應(yīng)用范圍擴(kuò)展到家庭、廚房和其他環(huán)境中,音頻將變得越來越有用。
假設(shè)一個(gè)機(jī)器人試圖找到哪個(gè)包或口袋里有一串鑰匙,但可見性有限。貝倫森說:“在你摸到鑰匙之前,你就能聽到它們碰撞的聲音。這表明鑰匙就在那個(gè)口袋里,而不是其他的。”
盡管如此,音頻仍然具有局限性。該團(tuán)隊(duì)指出,聲音對(duì)衣服等質(zhì)地柔軟或靈活的物體沒有那么有用,因?yàn)樗鼈儾粫?huì)發(fā)出那么多可用的(有意義的)聲音。
機(jī)器人在執(zhí)行任務(wù)時(shí)也很難過濾掉自己發(fā)出的噪音,因?yàn)槿祟惍a(chǎn)生的訓(xùn)練數(shù)據(jù)中不存在這種噪音。
為了解決這個(gè)問題,研究人員需要將機(jī)器人的“聲音”和致動(dòng)器噪音添加到訓(xùn)練集中,這樣機(jī)器人就可以學(xué)會(huì)將它們過濾掉。
Liu 說,下一步是看看這些模型是否能用更多的數(shù)據(jù)得到多好的結(jié)果。這可能意味著增加更多的麥克風(fēng)來收集空間音頻,并將麥克風(fēng)集成到其他類型的數(shù)據(jù)收集設(shè)備中。
支持:Ren
運(yùn)營/排版:何晨龍