展會信息港展會大全

靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)的端到端具身模型 Psi R0
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-30 15:26:48   瀏覽:285次  

導(dǎo)讀:IT之家 12 月 30 日消息,靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)(RL)的端到端具身模型 PsiR0。IT之家獲悉,該模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作,將多個技能串聯(lián)混訓(xùn),生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務(wù)。并且,Psi R0 還可以實(shí)現(xiàn)跨物品、跨場景級別的泛化。以電商場景為例,商品打包是典型的長程任務(wù)作業(yè),需對上萬件商品進(jìn)行抓取,掃碼,放置,塑料袋打結(jié) ......

IT之家 12 月 30 日消息,靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)(RL)的端到端具身模型 PsiR0。

IT之家獲悉,該模型支持雙靈巧手協(xié)同進(jìn)行復(fù)雜操作,將多個技能串聯(lián)混訓(xùn),生成具有推理能力的智能體,從而完成并閉環(huán)長程靈巧操作任務(wù)。并且,Psi R0 還可以實(shí)現(xiàn)跨物品、跨場景級別的泛化。

靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)的端到端具身模型 Psi R0

以電商場景為例,商品打包是典型的長程任務(wù)作業(yè),需對上萬件商品進(jìn)行抓取,掃碼,放置,塑料袋打結(jié)等多個操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動作(官方稱此系列動作在客戶現(xiàn)場可以取代一個完整工位),成為首個基于強(qiáng)化學(xué)習(xí)訓(xùn)練完成長程靈巧操作任務(wù)的具身機(jī)器人。

靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)的端到端具身模型 Psi R0

官方表示,基于 RL 的 PsiR0模型,使用海量仿真數(shù)據(jù)訓(xùn)練出雙手操作的智能體,并通過雙向訓(xùn)練框架串聯(lián)多技能,在業(yè)界率先完成開放環(huán)境中的長程任務(wù),具備較強(qiáng)的泛化能力與較高的魯棒性(robustness)。

這一技能訓(xùn)練框架從物體時(shí)空軌跡抽象出關(guān)鍵信息以構(gòu)建通用目標(biāo)函數(shù),從而解決獎勵函數(shù)難設(shè)計(jì)的問題。在后訓(xùn)練階段,通過少量高質(zhì)量真機(jī)數(shù)據(jù)對齊,進(jìn)一步提升長程任務(wù)的成功率。

靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)的端到端具身模型 Psi R0

除此之外,雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用,它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性,同時(shí)賦予模型自主切換技能的能力,使其在遭遇操作失敗時(shí)能夠迅速調(diào)整策略,確保高成功率。

靈初智能發(fā)布首個基于強(qiáng)化學(xué)習(xí)的端到端具身模型 Psi R0

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港