具身智能任務(wù)是當(dāng)前 AI 領(lǐng)域的重要研究方向之一,涉及機(jī)器人、自動(dòng)駕駛等需要與真實(shí)世界交互的技術(shù)。
視頻生成模型的快速發(fā)展使得它們?cè)谶@些任務(wù)中發(fā)揮著關(guān)鍵作用,但傳統(tǒng)評(píng)估手段更多側(cè)重于生成視頻的視覺質(zhì)量,而忽略了視頻在實(shí)際應(yīng)用場(chǎng)景中的可操作性和物理一致性,尤其是在復(fù)雜環(huán)境重點(diǎn)中的表現(xiàn)。
為了找到更好的評(píng)估方法,來(lái)自香港中文大學(xué)(深圳)、上海人工智能實(shí)驗(yàn)室、北京航空航天大學(xué)和香港大學(xué)的研究人員提出了一種全新的評(píng)估框架,用以考察視頻生成模型在具身智能任務(wù)中的表現(xiàn)。
日前,相關(guān)論文發(fā)表于預(yù)印本平臺(tái) arXiv 上。
圖丨相關(guān)論文(來(lái)源:arXiv)
在論文中,研究團(tuán)隊(duì)提出了一個(gè)名為 WorldSimBench 的全新評(píng)估框架,用以衡量視頻生成模型的實(shí)際應(yīng)用能力。
現(xiàn)有的視頻生成模型可以生成高度真實(shí)的視覺內(nèi)容,但這些內(nèi)容能否被用于指導(dǎo)機(jī)器人等智能體完成具身任務(wù),這方面的評(píng)估還較為欠缺。
研究人員意識(shí)到,僅僅依靠視覺效果來(lái)衡量模型性能是不夠的,生成的視頻如果不能反映現(xiàn)實(shí)世界的物理規(guī)律,將很難應(yīng)用于復(fù)雜的現(xiàn)實(shí)世界任務(wù)中。
因此,他們?cè)O(shè)計(jì)了顯性感知評(píng)估(Explicit Perceptual Evaluation)和隱性操作評(píng)估(Implicit Manipulative Evaluation)這兩個(gè)維度,旨在從不同角度考察視頻生成模型的性能。
顯性感知評(píng)估主要依賴于人類反饋,評(píng)估視頻的視覺質(zhì)量和物理一致性。
通過(guò)引入 HF-Embodied 數(shù)據(jù)集(一個(gè)用于研究和開發(fā)多模態(tài)人工智能系統(tǒng)的數(shù)據(jù)集),研究人員設(shè)計(jì)了一種偏好評(píng)估器,該評(píng)估器基于大量視頻-文本對(duì)數(shù)據(jù),通過(guò)人類打分的方式,衡量視頻在視覺表現(xiàn)上的優(yōu)劣。
隱性操作評(píng)估則關(guān)注視頻生成模型在具身智能任務(wù)中的實(shí)際應(yīng)用,即生成的視頻是否能夠驅(qū)動(dòng)智能體完成任務(wù)。
例如,在自動(dòng)駕駛場(chǎng)景中,生成的視頻是否能夠反映真實(shí)的道路情況,幫助車輛做出正確的決策。
這種雙重評(píng)估框架使得視頻生成模型的評(píng)價(jià)更加全面,能夠更加準(zhǔn)確地衡量其在具身任務(wù)中的潛在應(yīng)用價(jià)值。
在該論文中,研究人員將現(xiàn)有的視頻生成模型劃分為四個(gè)階段(S0-S3),依次代表不同程度的具身智能能力:
S0 階段:模型只關(guān)注視覺生成,無(wú)具身智能的體現(xiàn)。
S1 階段:模型生成的視頻在視覺上與任務(wù)場(chǎng)景相關(guān)。
S2 階段:模型開始生成有一定物理一致性的視頻,具有初步的動(dòng)作生成能力。
S3 階段(世界模擬器):模型能夠生成完全符合物理規(guī)則且能夠直接用于具身任務(wù)的視頻。
(來(lái)源:arXiv)
其中 S3 階段被定義為“世界模擬器”(World Simulators),即能夠生成完全符合物理規(guī)則,并且可用于指導(dǎo)具身任務(wù)的高級(jí)視頻生成模型。
值得注意的是,世界模擬器這一概念早在 2018 年就被提出,反映了研究人員希望將視頻生成模型從單純的視覺生成擴(kuò)展到具有真實(shí)物理環(huán)境交互能力的目標(biāo),從而為未來(lái)的具身智能發(fā)展奠定基矗
為了驗(yàn)證 WorldSimBench 評(píng)估框架的有效性,他們?cè)诙鄠(gè)具身智能任務(wù)場(chǎng)景中對(duì)多種視頻生成模型進(jìn)行了評(píng)估。
分別在 MineRL、CARLA 和 CALVIN 三個(gè)仿真環(huán)境中測(cè)試了模型的表現(xiàn),對(duì)應(yīng)了開放式具身環(huán)境、自動(dòng)駕駛 和機(jī)器人操控三種重要的智能任務(wù)。
MineRL 是一款基于“我的世界”(Minecraft)的模擬環(huán)境,主要用于測(cè)試視頻生成模型在復(fù)雜、開放式環(huán)境中的表現(xiàn)。
智能體的任務(wù)是在虛擬環(huán)境中完成諸如采集物品、導(dǎo)航等任務(wù)。評(píng)估框架負(fù)責(zé)判斷生成視頻能否有效引導(dǎo)智能體執(zhí)行這些操作。
CARLA 是一個(gè)用于自動(dòng)駕駛研究的仿真平臺(tái),評(píng)估視頻生成模型在交通場(chǎng)景中的表現(xiàn)。
研究人員通過(guò)模擬復(fù)雜的城市路況、行人交通等情景,考察模型生成的視頻能否幫助自動(dòng)駕駛系統(tǒng)做出正確決策。評(píng)估指標(biāo)包括路線完成度、碰撞率、違規(guī)行為等。
CALVIN 則是一個(gè)用于機(jī)器人操作的仿真環(huán)境,評(píng)估視頻生成模型能否幫助機(jī)器人完成精確的物理操作任務(wù),如抓取物體、搬運(yùn)等。
該環(huán)境的操作復(fù)雜度較高,需要生成的視頻能夠準(zhǔn)確反映物體的位置、運(yùn)動(dòng)軌跡和速度變化,其評(píng)估指標(biāo)包括成功率和軌跡生成質(zhì)量等。
在顯性感知評(píng)估中,研究人員使用了 HF-Embodied 數(shù)據(jù)集,并訓(xùn)練了一個(gè)基于人類偏好反饋(Human Preference Evaluator)的評(píng)估器,通過(guò)人類反饋對(duì)生成視頻進(jìn)行了打分。
圖 | 顯性感知評(píng)估概述(來(lái)源:arXiv)
在顯性感知評(píng)估中:
上半部分是指令提示生成。研究人員使用來(lái)自互聯(lián)網(wǎng)的大量視頻字幕和預(yù)定義的體現(xiàn)評(píng)估維度。它們經(jīng)過(guò)了 GPT 擴(kuò)展并由人工驗(yàn)證,以創(chuàng)建相應(yīng)的任務(wù)指令提示列表,用于數(shù)據(jù)生成和評(píng)估。
下半部分是 HF-Embodied 數(shù)據(jù)集生成。使用了大量帶有字幕的互聯(lián)網(wǎng)具身視頻訓(xùn)練數(shù)據(jù)生成模型。然后根據(jù)相應(yīng)的任務(wù)指令提示列表,將細(xì)粒度的人工反饋?zhàn)⑨寫?yīng)用于視頻上,涵蓋多個(gè)體現(xiàn)維度。
在隱性操作評(píng)估中,研究人員通過(guò)將生成的視頻轉(zhuǎn)換為控制信號(hào),并觀察其在各種閉環(huán)具體任務(wù)中的表現(xiàn)來(lái)隱性評(píng)估模擬器的能力。
圖 | 隱性操作評(píng)估概述(來(lái)源:arXiv)
在隱性操作評(píng)估中:
不同場(chǎng)景下的具身任務(wù)被分解為可執(zhí)行的子任務(wù)。視頻生成模型根據(jù)當(dāng)前指令和實(shí)時(shí)觀察生成相應(yīng)的預(yù)測(cè)視頻。使用預(yù)先訓(xùn)練的 IDM 或基于目標(biāo)的策略,代理執(zhí)行生成的動(dòng)作序列。
在固定的時(shí)間步長(zhǎng)之后,通過(guò)再次從視頻生成模型中采樣來(lái)刷新預(yù)測(cè)視頻,并重復(fù)此過(guò)程。最后,通過(guò)模擬環(huán)境中的監(jiān)視器獲得各種具身任務(wù)的成功率。
實(shí)驗(yàn)結(jié)果表明,該評(píng)估器在判斷視頻的視覺質(zhì)量和物理一致性方面,表現(xiàn)大多優(yōu)于傳統(tǒng)的大型語(yǔ)言模型(如 GPT-4o)。
圖 | 人類偏好評(píng)估器與 GPT-4o 的整體性能比較(來(lái)源:arXiv)
這些數(shù)據(jù)顯示,使用基于兩種評(píng)估方法的 WorldSimBench 框架,研究人員能夠更精確地捕捉到模型在視覺生成中的細(xì)微差異,并且能夠更好地反映人類對(duì)視頻生成的實(shí)際期望。
盡管 WorldSimBench 框架在視頻生成模型評(píng)估方面取得了進(jìn)展,但其依然面臨一些挑戰(zhàn)。
比如,HF-Embodied 數(shù)據(jù)集是依賴于大規(guī)模人工標(biāo)注數(shù)據(jù),而且現(xiàn)有的評(píng)估場(chǎng)景集中在虛擬仿真環(huán)境中,如何擴(kuò)展到更多真實(shí)世界的場(chǎng)景仍需要繼續(xù)探索。
最后,基于整體的顯性感知評(píng)估和隱性操作評(píng)估結(jié)果,該課題組得出結(jié)論:當(dāng)前的視頻生成模型仍然無(wú)法有效捕捉許多物理規(guī)則。
作者在論文最后強(qiáng)調(diào),“這表明在它們成為真正的世界模擬器之前,還需要進(jìn)行很多改進(jìn)。”
參考資料:
https://arxiv.org/pdf/2410.18072v1
運(yùn)營(yíng)/排版:何晨龍