機器人如何更像人?
作者/IT時報記者沈毅斌
編輯/ 孫妍
兩個月前在上海舉辦的世界人工智能大會上,來自多家企業(yè)的人形機器人“十八金剛”集體出道,不僅成為鎮(zhèn)館之寶,還向觀眾展現(xiàn)出一張未來科技藍圖。作為改革開放“排頭兵”,深圳也加入由AI卷起的科技浪潮中。
9月8日至10日,以“智創(chuàng)未來價值鏈接”為主題的第五屆深圳國際人工智能展(GAIE)在深圳會展中心拉開帷幕。展會現(xiàn)場,迎賓巡更機器人在入口處迎接遠道而來的觀眾,并發(fā)放論壇議程;休息區(qū)可以品嘗咖啡機器人和炒面機器人的“手藝”;智能訪客機器人回答著觀展問題......具身智能憑借強大的交互能力,成為全場焦點。
目前,具身智能在語言對話交互方面已經(jīng)取得一定進步,不過在行動、情感等方面的交互還較為簡單,恐怖谷效應(yīng)依然存在。“人形機器人在交互領(lǐng)域達到‘手眼心腦’協(xié)同,實現(xiàn)人機共融,才是未來發(fā)展的方向。”數(shù)字華夏解決方案總經(jīng)理戴鵬表示。
行動交互
輸入感知信息,輸出運動執(zhí)行
“各位參會的先生們女士們,以及現(xiàn)場的機器人朋友們,大家好。”在智能機器人創(chuàng)新發(fā)展論壇上,北京大學人工智能研究院、具身智能與機器人研究中心主任劉宏用一句開玩笑式的打招呼方式吸引了觀眾的注意。之所以這樣打招呼,劉宏說,因為已經(jīng)將機器人看作是一個有思想的獨立個體,未來將是人機共存的時代。
如今,大模型的出現(xiàn)賦予具身智能一顆“智慧大腦”,也推動具身智能走向更深的應(yīng)用場景。但想要成為獨立個體,還要求具身智能將思考變?yōu)樾袆,具備一套強大的?zhí)行交互能力。在劉宏眼中,將輸入的感知信息轉(zhuǎn)化為輸出的運動執(zhí)行,才能被定義為具身智能。同時需要具備安全性、靈活性、流暢度、自主性,即行為越來越像人,才能實現(xiàn)人機自然交互。
行為認知學習和未來運動預測是行動交互的關(guān)鍵。在行為認知方面,多位業(yè)內(nèi)人士都表示需要以人腦為參考。憶海原識總裁助理陳詩薇在論壇上表示,需要為具身智能打造一個類腦智能,即利用豐富的基礎(chǔ)模型,結(jié)合生物神經(jīng)系統(tǒng)工作原理的技術(shù)體系。相比深度學習體系,類腦計算體系結(jié)構(gòu)由擴展機制、變量體系、抽象模塊、基礎(chǔ)模型等多種核心組成,結(jié)構(gòu)更加復雜,卻具有較強的可塑性機制,可快速刻畫出行為的因果聯(lián)系,數(shù)據(jù)量小也能進行訓練。
中國科學院院士、北京科學智能研究院理事長鄂維南在論壇上也表示,下一代大模型實現(xiàn)進一步智能化,需要借鑒人腦的“記憶分層”,將技術(shù)框架進行分層處理。
在未來運動預測方面,目前基于RNN方法(循環(huán)神經(jīng)網(wǎng)絡(luò)),可以學習時序數(shù)據(jù)中的動態(tài)依賴性。簡單理解是通過反饋連接,將此前識別信息用于當前決策中。但人體運動是一種相互組合的復合運動,例如走路動作由邁步和擺手兩個原子動作組成,而訓練數(shù)據(jù)不足會使得人體運動預測任務(wù)面臨挑戰(zhàn),學習中的誤差也會積累。
對此,劉宏提出一個復合動作生成模塊,該模塊基于VAE模型(變分自編碼器,學習潛在變量,生成新的數(shù)據(jù)樣本),將復合動作拆分提煉成若干個原子動作,再組合成動作序列進行行為交互訓練。這就意味著使用原子動作訓練就可以生成合成復合運動,解決復合運動訓練數(shù)據(jù)收集費時費力的痛點。
盡管已經(jīng)有解決方案提出,但是浙江大學智能系統(tǒng)與控制研究所機器人實驗室主任熊蓉認為,技術(shù)層面還需要進一步打磨,包括從提升整個運動的可靠性,長時間長距離擬人化的各種動態(tài)運動;操作層面,需要提升適應(yīng)各種場景的智能性;從產(chǎn)品上來說,需要去定義適合市場需求的產(chǎn)品,并且要去打造供應(yīng)鏈,降低成本,以及面向應(yīng)用去做各種開發(fā)。
情感交互
手眼心腦協(xié)同,避免恐怖谷效應(yīng)
在某個展會上,幾位擁有長發(fā)、人臉的人形機器人舞動雙手,跳起網(wǎng)紅舞蹈“科目三”。盡管動作十分標準,但面對越來越像人的人形機器人,難免會產(chǎn)生恐怖谷效應(yīng)。僅做到行動交互并不能讓人類打心底接受人形機器人,因此需要提升情感交互能力。
“我們需要一款‘有溫度’的人形交互機器人。”戴鵬在論壇上表示,傳統(tǒng)人形協(xié)作機器人具備自動控制和編程能力,可以與人類在同一工作空間協(xié)同作業(yè);而有溫度的人形交互機器人,是實現(xiàn)和人類一樣“手眼心腦”協(xié)同。“眼”為眼神交流與表情互動;“心”則能讀懂人的喜怒哀樂,感知人類細微且豐富的情感和認知狀態(tài);“腦”是具備豐富的通用知識,能進行有深度的情感溝通,其中最直觀的感受便是表情的呈現(xiàn)。
以數(shù)字華夏打造的交互型人形機器人“夏瀾”為例,臉部多達26個執(zhí)行器,19個電機模擬面部肌肉進行控制。表情交互技術(shù)以多模態(tài)大模型為基礎(chǔ),通過視頻數(shù)據(jù),機器人自我模型就會通過觀察學習視頻中人類的交流方式、情感表達等實現(xiàn)泛化交互。在現(xiàn)實交流時,表情預測和眼動追蹤可以讓機器人預測面部活動,從而快速做出表情回應(yīng)。
無獨有偶,多家機器人研究院也在強化情感互動能力。今年5月,中國科學技術(shù)大學計算機科學與技術(shù)學院機器人實驗室內(nèi),“90后”博士曹榮昀自主研發(fā)了一款人形情感交互機器人。該款機器人的亮點在于其高度仿真的面部表情和觸感。通過部署30個電機驅(qū)動器,實現(xiàn)機器人面部肌肉的協(xié)同工作,讓機器人呈現(xiàn)出真實自然的表情。
為了讓人形機器人提升情感交互能力,戴鵬在論壇上公布了人形機器人交互技術(shù)框架,可以分為laaS(基礎(chǔ)設(shè)施即服務(wù))、核心能力、RaaS(機器人即服務(wù))三層,其中核心能力包括感知理解引擎、綜合決策引擎、任務(wù)編排引擎,以及情感分析和表情控制兩種模型。
排版/孫妍