中新經(jīng)緯2月22日電 (薛宇飛)在上海市智元機(jī)器人數(shù)據(jù)采集中心的廚房場景中,一名數(shù)據(jù)采集員手持操作手柄指揮著機(jī)器人用一只手在調(diào)料架上拿起雞精調(diào)料瓶,另一只手輕輕打開調(diào)料瓶蓋子,小心翼翼地捏起瓶內(nèi)的小勺,將雞精撒入鍋中。之后,機(jī)器人將調(diào)料勺放回調(diào)料瓶,蓋上蓋子,將調(diào)料瓶放回調(diào)料架。這樣,一條接近真實使用場景下的數(shù)據(jù)采集才算完成。
該數(shù)據(jù)采集中心每天可以產(chǎn)出數(shù)萬條機(jī)器人真機(jī)數(shù)據(jù)和仿真環(huán)境數(shù)據(jù),這些數(shù)據(jù)將用于訓(xùn)練大模型,讓人形機(jī)器人學(xué)習(xí)并掌握這些技能。智元機(jī)器人的通用具身機(jī)器人已實現(xiàn)量產(chǎn),在該公司的工廠,一排排機(jī)器人正在組裝、下線,目前的年產(chǎn)能力能達(dá)到數(shù)千臺。
中新經(jīng)緯近日實地走訪智元機(jī)器人,探究人機(jī)器人的應(yīng)用前景。智元機(jī)器人研究院執(zhí)行院長、具身業(yè)務(wù)部總裁姚卯青表示,人形機(jī)器人走向家用市場大約需要5年時間,而價格可能在5萬元這一級別。
“數(shù)百條數(shù)據(jù)能實現(xiàn)比較好的倒水效果”
智元機(jī)器人人形機(jī)器人產(chǎn)品。中新經(jīng)緯 薛宇飛攝
人形機(jī)器人的話題已討論多年,但近期著實又火了一把,從央視春晚的機(jī)器人扭秧歌到資本市場相關(guān)板塊的火熱、投融資市場的摩拳擦掌,人形機(jī)器人成了科技賽道上的 “流量密碼”。
上海市張江機(jī)器人谷聚集多家機(jī)器人行業(yè)的知名公司,成立于2023年2月的智元機(jī)器人就是其中之一。目前,智元機(jī)器人已完成多輪融資,公司估值超過70億元人民幣。
姚卯青對中新經(jīng)緯表示,一方面,資本市場的大力推動對人形機(jī)器人的發(fā)展起到了很大作用,從全球看,美國特斯拉創(chuàng)始人埃隆馬斯克布局人形機(jī)器人行業(yè),英偉達(dá)也在這方面動作頻頻。另一方面,大語言模型不斷實現(xiàn)突破,給機(jī)器人的智能化提供了技術(shù)基礎(chǔ)。
數(shù)據(jù)尤其是高質(zhì)量數(shù)據(jù),就如同一道道練習(xí)題,大模型在數(shù)據(jù)的不斷投喂下進(jìn)行練習(xí)與模仿,才能變得更加智能。而是否擁有高質(zhì)量數(shù)據(jù),成為發(fā)展人形機(jī)器人的卡點(diǎn)之一。姚卯青稱,具身智能訓(xùn)練領(lǐng)域大規(guī)模的開源數(shù)據(jù)集是美國Google公司的Open X-Embodiment,但該數(shù)據(jù)是全球幾十家機(jī)構(gòu)拼湊起來的,質(zhì)量較差,而且有些數(shù)據(jù)已經(jīng)丟失,行業(yè)需要一個高質(zhì)量、大規(guī)模的數(shù)據(jù)集。
智元機(jī)器人數(shù)據(jù)采集中心。中新經(jīng)緯 薛宇飛攝
在4000平方米的智元機(jī)器人數(shù)據(jù)采集中心,搭建出家居、餐廳、工業(yè)、商超、辦公五大類場景,包含超過兩百個細(xì)分場景的任務(wù)。在這些場景中,數(shù)百名數(shù)據(jù)采集員通過頭戴VR眼鏡、手持操作手柄指揮著機(jī)器人進(jìn)行各種動作。比如,家居場景依據(jù)真實住宅進(jìn)行布局,包括臥室、客廳、廚房、衛(wèi)生間等空間,可以實現(xiàn)機(jī)器人整理物品、收拾碗筷、打掃房間等。在奶茶店場景下,采集機(jī)器人奶茶制作、送餐、收拾桌子等過程。
智元機(jī)器人人形機(jī)器人正在采集數(shù)據(jù)。中新經(jīng)緯 薛宇飛攝
中新經(jīng)緯看到,在數(shù)據(jù)采集員的操控下,一臺機(jī)器人拿起桌上的茶壺,慢慢地將水倒入面前的杯子中,然后將水壺放回原位。不過,重復(fù)、單一的數(shù)據(jù),對訓(xùn)練大模型作用甚微,采集過程中,數(shù)據(jù)采集員會不斷挪動杯子和茶壺的位置,記錄下不同場景下的數(shù)據(jù)。同樣,采集機(jī)器人掃地時,數(shù)據(jù)采集員也將垃圾擺放在不同位置,通過操作手柄讓機(jī)器人手臂上的吸塵器去吸取。該數(shù)據(jù)采集員表示,這項動作一天約能采集數(shù)百條。
姚卯青說:“智元機(jī)器人的模型訓(xùn)練路線與語言大模型比較類似。最開始是預(yù)訓(xùn)練,該階段使用盡量多的數(shù)據(jù)進(jìn)行訓(xùn)練,形成對環(huán)境的基本感知等。之后,會采集數(shù)百條高質(zhì)量數(shù)據(jù),里面也會做一些泛化,比如倒水的動作,對水壺、桌面、光照等進(jìn)行更換,拿放位置及倒水姿態(tài)進(jìn)行調(diào)整等,大概數(shù)百條數(shù)據(jù)能讓機(jī)器人實現(xiàn)比較好的倒水效果。”
智元機(jī)器人數(shù)據(jù)采集中心負(fù)責(zé)人阮丞向中新經(jīng)緯解釋稱,簡單來說,智元機(jī)器人具身基座大模型是端到端的VLA大模型,它以互聯(lián)網(wǎng)多模態(tài)大模型為基礎(chǔ),先讓模型具有通用的感知和動作理解能力,再使用相同本體的高質(zhì)量真機(jī)動作數(shù)據(jù)進(jìn)行訓(xùn)練,也就是數(shù)據(jù)采集中心所采集的數(shù)據(jù),讓模型具備動作的精細(xì)執(zhí)行能力。
阮丞說:“這個過程可以對比教小孩子學(xué)做菜,最開始是認(rèn)識菜、肉、調(diào)料,之后告訴他操作步驟,最后是實踐操作。就倒水這一動作來說,(我們)先讓大模型認(rèn)識各式各樣的水壺、杯子以及杯子里的水位等,之后讓它具備在不同場景下的泛化能力,最后在高質(zhì)量真機(jī)動作數(shù)據(jù)的訓(xùn)練下,能夠精準(zhǔn)理解倒水的相關(guān)動作!
阮丞也稱,教會人形機(jī)器人學(xué)會每項動作需要采集多少條數(shù)據(jù),因任務(wù)和要求不同可能有所差異,沒辦法準(zhǔn)確量化,而且,隨著對人形機(jī)器人的要求越來越高,可能需要更多的數(shù)據(jù)。
2024年底,智元機(jī)器人對該數(shù)據(jù)采集中心的百萬真機(jī)數(shù)據(jù)集AgiBot World進(jìn)行了開源。據(jù)介紹,相較于Google的Open X-Embodiment,AgiBot World長程數(shù)據(jù)規(guī)模高出10倍,場景范圍覆蓋面擴(kuò)大100倍,數(shù)據(jù)質(zhì)量也從實驗室級上升到工業(yè)級標(biāo)準(zhǔn)。
對具身大模型的不斷訓(xùn)練已經(jīng)產(chǎn)生效果。阮丞說:“以最早期的抓取放置任務(wù)訓(xùn)練為例,讓機(jī)器人抓取一個物品從一個筐放進(jìn)另一個筐,隨著訓(xùn)練數(shù)據(jù)的增加,模型的能力也得到很大擴(kuò)展,對不同樣式不同位置的筐和物品,甚至完全沒見過的物品,機(jī)器人也能進(jìn)行識別并投放。在不斷的研究與探索中,我們的認(rèn)知也在不斷地被顛覆,F(xiàn)在的模型具備了同時執(zhí)行多個任務(wù),對不同場景和新物體的泛化能力,同時還能理解跟隨語言指令。”
“解決一個工序也有上萬臺市場規(guī)!
2023年11月,中國工業(yè)和信息化部發(fā)布的《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》中提出,到2025年,人形機(jī)器人創(chuàng)新體系初步建立,“大腦、小腦、肢體”等一批關(guān)鍵技術(shù)取得突破,確保核心部組件安全有效供給。整機(jī)產(chǎn)品達(dá)到國際先進(jìn)水平,并實現(xiàn)批量生產(chǎn),在特種、制造、民生服務(wù)等場景得到示范應(yīng)用,探索形成有效的治理機(jī)制和手段。
今年1月初,智元機(jī)器人對外宣布,公司通用具身機(jī)器人累計下線達(dá)1000臺。此前,中國國內(nèi)的傅利葉、宇樹科技等機(jī)器人公司也對外宣布過有關(guān)機(jī)器人量產(chǎn)的消息。國際上,埃隆馬斯克在今年1月份表示,特斯拉計劃在今年生產(chǎn)數(shù)千臺套人形機(jī)器人Optimus,若進(jìn)展順利,明年產(chǎn)量將達(dá)5萬至10萬臺。
智元機(jī)器人上海臨港量產(chǎn)工廠內(nèi)正在組裝的人形機(jī)器人。中新經(jīng)緯 薛宇飛 攝
中新經(jīng)緯在智元機(jī)器人上海臨港量產(chǎn)工廠看到,一些機(jī)器發(fā)出嗡嗡聲響,200多名工人操作著不同的程序組裝人形機(jī)器人,一些已經(jīng)下線的機(jī)器人還需要進(jìn)行最后的測試。
智元機(jī)器人制造部總經(jīng)理張紹政對中新經(jīng)緯稱,除了一些標(biāo)準(zhǔn)化的組件外,人形機(jī)器人的大多數(shù)核心部件都是該公司自研,再交由相關(guān)工廠完成部件的生產(chǎn)后,最后的組裝交由臨港量產(chǎn)工廠完成。目前,臨港量產(chǎn)工廠的年產(chǎn)能達(dá)到了數(shù)千臺,后續(xù)還有進(jìn)一步擴(kuò)大產(chǎn)能的計劃。
智元機(jī)器人已交付的機(jī)器人主要用于工業(yè)生產(chǎn)場景和一些展館內(nèi)機(jī)器人導(dǎo)覽介紹等交互服務(wù)場景。在工業(yè)生產(chǎn)場景,機(jī)器人主要從事“PPT”工序,即Pick(抓取)、Place(放置)和 Transfer(轉(zhuǎn)運(yùn))。姚卯青表示,在汽車制造、3C制造等場景下,機(jī)器人可以替代一些重復(fù)、機(jī)械的工作,需求量龐大,“解決一個工序也有上萬臺市場規(guī)模,未來如果真正能實現(xiàn)完全的工業(yè)自動化,人形機(jī)器人行業(yè)會成為比汽車制造業(yè)更大的一個產(chǎn)業(yè)!
借鑒自動駕駛的等級劃分思路,智元機(jī)器人將具身智能技術(shù)的發(fā)展也分為五個階段,即G1至G5。G1階段,屬于基礎(chǔ)自動化階段,基于簡單的機(jī)器視覺加上人工程序化編程,這一階段的機(jī)器人系統(tǒng)設(shè)計和配置都針對特定的應(yīng)用需求,缺乏泛化能力。G2階段,通過抽象出可復(fù)用的原子技能,機(jī)器人可以實現(xiàn)一定程度上的場景遷移和泛化。這一階段的機(jī)器人已經(jīng)能夠基于大語言模型(任務(wù)編排大模型)進(jìn)行任務(wù)編排,具備一定的智能水平。到G3階段,機(jī)器人將能夠更靈活地適應(yīng)不同場景和任務(wù),通過持續(xù)學(xué)習(xí)不斷優(yōu)化自身性能。
姚卯青說:“目前整個行業(yè)的具身智能技術(shù)還處于G1到G2的階段,學(xué)術(shù)陣地可能到了G3階段。到G4階段,我覺得還需要5年時間,而到G5階段則要10年。簡單講,在G3階段,具身智能技術(shù)會在單一任務(wù)上可以實現(xiàn)與人一樣的成功率;在G4階段,可以實現(xiàn)用一個模型完成多種任務(wù);到G5階段,則是具身智能技術(shù)的終極形態(tài),它可以實現(xiàn)推理、反思、糾錯!
就智元機(jī)器人而言,姚卯青透露,公司今年計劃走通G3階段產(chǎn)品的技術(shù)路線,明后年會繼續(xù)向更多場景與任務(wù)進(jìn)行拓展,同時對G4階段的產(chǎn)品進(jìn)行一些布局。
走向家用市場或需要5年時間
智元機(jī)器人上海臨港量產(chǎn)工廠內(nèi)的人形機(jī)器人。中新經(jīng)緯 薛宇飛攝
相比于一些花式炫技,消費(fèi)者更關(guān)心人形機(jī)器人何時能夠“飛入尋常百姓家”。
今年2月,宇樹科技的H1和G1人形機(jī)器人開售,G1的售價為9.9萬元,H1的售價為65萬元。2024年12月,眾擎機(jī)器人的人形機(jī)器人PM01發(fā)售,售價8.8萬元。
目前,智元機(jī)器人的客戶主要來自企業(yè)端,采訪中并未透露人形機(jī)器人的零售價格。但姚卯青稱,智元機(jī)器人的人形機(jī)器人產(chǎn)品的生產(chǎn)成本正在不斷下降,每年大約會有15%~20%的降幅。人形機(jī)器人的成本主要是一些關(guān)節(jié)類組件,隨著行業(yè)量產(chǎn),這類組件的價格會明顯下降。智元機(jī)器人去年推出了全棧開源機(jī)器人靈犀X1,科技愛好者、開發(fā)者可在智元商城購買相應(yīng)的組件套餐。
姚卯青預(yù)計,人形機(jī)器人走向家用市場,大約需要5年時間。他說:“走向家用的人形機(jī)器人,到時能接受一些開放式的指令,可以從事一些常見的家庭工作,比如取放東西、泡杯茶、拿快遞、丟垃圾、疊被子、洗衣服等常見工作。走入家庭的產(chǎn)品,價格可能在5萬元這一級別!
姚卯青稱,具身智能技術(shù)發(fā)展到G4階段時,智力上與人已經(jīng)差不多,在居家場景使用時,會替代家政服務(wù)人員完成部分基礎(chǔ)工作,但體力上是否可以跟上要取決于硬件的迭代情況。他說:“是否能讓人形機(jī)器人爬到窗戶外面擦窗,這還需要行業(yè)共同努力!
姚卯青表示,人形機(jī)器人的發(fā)展也面臨硬件與軟件上的瓶頸。硬件方面,對機(jī)器人的手部研發(fā)亟待突破,目前市場的高自由度靈巧手的靈活度與人手相比仍存差距。另外,關(guān)節(jié)和電機(jī)的輕量化、小型化,外殼材料的高強(qiáng)度、輕量化、仿真化,電池的功率密度的提升,芯片的更大算力及更低成本,更豐富和精密的傳感器等,都需要改進(jìn)。軟件方面,具身智能技術(shù)還處于G1到G2階段,因此在算法方面還有很長的路要走,這中間,數(shù)據(jù)也比較核心。
當(dāng)前,全球多個國家都在人形機(jī)器人行業(yè)發(fā)力,中國的優(yōu)勢在哪里?姚卯青表示,一是,供應(yīng)鏈方面,中國擁有龐大而完整的零部件供應(yīng)鏈,這是其他國家或地區(qū)無法比擬的;二是,人才方面,中國擁有數(shù)量龐大的工科人才和專家隊伍,人才的專業(yè)技術(shù)過硬,同時,整個人力成本也相對較低;三是,政策支持,政府部門對人形機(jī)器人的支持力度較大。
2月17日在北京召開的民營企業(yè)座談會引發(fā)廣泛關(guān)注。座談會上,6位民營企業(yè)負(fù)責(zé)人代表先后發(fā)言,就新形勢下促進(jìn)民營經(jīng)濟(jì)發(fā)展提出意見和建議。智元機(jī)器人相關(guān)負(fù)責(zé)人表示,黨和國家對民營經(jīng)濟(jì)發(fā)展的支持是有目共睹的,對培育新質(zhì)生產(chǎn)力更是不遺余力。當(dāng)前正值人形機(jī)器人產(chǎn)業(yè)的快速發(fā)展期,既需要民營企業(yè)充分發(fā)揮主觀能動性,也需要各級政府政策的支持與幫助,相信中國的人形機(jī)器人產(chǎn)業(yè)一定大有作為。
國信證券機(jī)械首席分析師滿在朋在2月16日的研報中稱,2024年是國內(nèi)外人形機(jī)器人的原型機(jī)發(fā)布大年,經(jīng)過半年到一年的技術(shù)優(yōu)化與調(diào)試,2025年有望成為真正的量產(chǎn)元年。DeepSeek AI成功突破AI發(fā)展的高昂成本問題,憑借降本、開源的優(yōu)勢,在人形機(jī)器人領(lǐng)域展現(xiàn)出強(qiáng)大的賦能能力,有望助力機(jī)器人在環(huán)境感知、任務(wù)規(guī)劃與決策、持續(xù)進(jìn)化等大模型方面實現(xiàn)質(zhì)的飛躍。
中信證券表示在研報中稱,在全球勞動年齡人口下降、人工成本上升的背景下,用機(jī)器替代流水線上的簡單重復(fù)勞動并逐步成為人類生活的多場景下的助手是一大趨勢。“人形”是最適合人類社會所有場景的形態(tài),無需改變場景來適應(yīng)機(jī)器,一旦技術(shù)成熟可直接用于所有社會場景。中信證券認(rèn)為,2025年全球人形機(jī)器人出貨量將會突破1萬臺,預(yù)計到2030年將達(dá)到500萬臺左右,市場需求會提升至約7500億元。
(更多報道線索,請聯(lián)系本文作者薛宇飛:xueyufei@chinanews.com.cn)(中新經(jīng)緯APP)
(文中觀點(diǎn)僅供參考,不構(gòu)成投資建議,投資有風(fēng)險,入市需謹(jǐn)慎。)
中新經(jīng)緯版權(quán)所有,未經(jīng)書面授權(quán),任何單位及個人不得轉(zhuǎn)載、摘編或以其他方式使用。
責(zé)任編輯:魏薇 羅琨