當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-27 07:44:39 瀏覽：1540次

導(dǎo)讀：具身智能任務(wù)是當(dāng)前 AI 領(lǐng)域的重要研究方向之一，涉及機(jī)器人、自動(dòng)駕駛等需要與真實(shí)世界交互的技術(shù)。視頻生成模型的快速發(fā)展使得它們?cè)谶@些任務(wù)中發(fā)揮著關(guān)鍵作用，但傳統(tǒng)評(píng)估手段更多側(cè)重于生成視頻的視覺質(zhì)量，而忽略了視頻在實(shí)際應(yīng)用場(chǎng)景中的可操作性和物...

具身智能任務(wù)是當(dāng)前 AI 領(lǐng)域的重要研究方向之一，涉及機(jī)器人、自動(dòng)駕駛等需要與真實(shí)世界交互的技術(shù)。

視頻生成模型的快速發(fā)展使得它們?cè)谶@些任務(wù)中發(fā)揮著關(guān)鍵作用，但傳統(tǒng)評(píng)估手段更多側(cè)重于生成視頻的視覺質(zhì)量，而忽略了視頻在實(shí)際應(yīng)用場(chǎng)景中的可操作性和物理一致性，尤其是在復(fù)雜環(huán)境重點(diǎn)中的表現(xiàn)。

為了找到更好的評(píng)估方法，來(lái)自香港中文大學(xué)（深圳）、上海人工智能實(shí)驗(yàn)室、北京航空航天大學(xué)和香港大學(xué)的研究人員提出了一種全新的評(píng)估框架，用以考察視頻生成模型在具身智能任務(wù)中的表現(xiàn)。

日前，相關(guān)論文發(fā)表于預(yù)印本平臺(tái) arXiv 上。

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)

圖丨相關(guān)論文（來(lái)源：arXiv）

在論文中，研究團(tuán)隊(duì)提出了一個(gè)名為 WorldSimBench 的全新評(píng)估框架，用以衡量視頻生成模型的實(shí)際應(yīng)用能力。

現(xiàn)有的視頻生成模型可以生成高度真實(shí)的視覺內(nèi)容，但這些內(nèi)容能否被用于指導(dǎo)機(jī)器人等智能體完成具身任務(wù)，這方面的評(píng)估還較為欠缺。

研究人員意識(shí)到，僅僅依靠視覺效果來(lái)衡量模型性能是不夠的，生成的視頻如果不能反映現(xiàn)實(shí)世界的物理規(guī)律，將很難應(yīng)用于復(fù)雜的現(xiàn)實(shí)世界任務(wù)中。

因此，他們?cè)O(shè)計(jì)了顯性感知評(píng)估（Explicit Perceptual Evaluation）和隱性操作評(píng)估（Implicit Manipulative Evaluation）這兩個(gè)維度，旨在從不同角度考察視頻生成模型的性能。

顯性感知評(píng)估主要依賴于人類反饋，評(píng)估視頻的視覺質(zhì)量和物理一致性。

通過(guò)引入 HF-Embodied 數(shù)據(jù)集（一個(gè)用于研究和開發(fā)多模態(tài)人工智能系統(tǒng)的數(shù)據(jù)集），研究人員設(shè)計(jì)了一種偏好評(píng)估器，該評(píng)估器基于大量視頻-文本對(duì)數(shù)據(jù)，通過(guò)人類打分的方式，衡量視頻在視覺表現(xiàn)上的優(yōu)劣。

隱性操作評(píng)估則關(guān)注視頻生成模型在具身智能任務(wù)中的實(shí)際應(yīng)用，即生成的視頻是否能夠驅(qū)動(dòng)智能體完成任務(wù)。

例如，在自動(dòng)駕駛場(chǎng)景中，生成的視頻是否能夠反映真實(shí)的道路情況，幫助車輛做出正確的決策。

這種雙重評(píng)估框架使得視頻生成模型的評(píng)價(jià)更加全面，能夠更加準(zhǔn)確地衡量其在具身任務(wù)中的潛在應(yīng)用價(jià)值。

在該論文中，研究人員將現(xiàn)有的視頻生成模型劃分為四個(gè)階段（S0-S3），依次代表不同程度的具身智能能力：

S0 階段：模型只關(guān)注視覺生成，無(wú)具身智能的體現(xiàn)。

S1 階段：模型生成的視頻在視覺上與任務(wù)場(chǎng)景相關(guān)。

S2 階段：模型開始生成有一定物理一致性的視頻，具有初步的動(dòng)作生成能力。

S3 階段（世界模擬器）：模型能夠生成完全符合物理規(guī)則且能夠直接用于具身任務(wù)的視頻。

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)

（來(lái)源：arXiv）

其中 S3 階段被定義為“世界模擬器”（World Simulators），即能夠生成完全符合物理規(guī)則，并且可用于指導(dǎo)具身任務(wù)的高級(jí)視頻生成模型。

值得注意的是，世界模擬器這一概念早在 2018 年就被提出，反映了研究人員希望將視頻生成模型從單純的視覺生成擴(kuò)展到具有真實(shí)物理環(huán)境交互能力的目標(biāo)，從而為未來(lái)的具身智能發(fā)展奠定基矗

為了驗(yàn)證 WorldSimBench 評(píng)估框架的有效性，他們?cè)诙鄠€(gè)具身智能任務(wù)場(chǎng)景中對(duì)多種視頻生成模型進(jìn)行了評(píng)估。

分別在 MineRL、CARLA 和 CALVIN 三個(gè)仿真環(huán)境中測(cè)試了模型的表現(xiàn)，對(duì)應(yīng)了開放式具身環(huán)境、自動(dòng)駕駛和機(jī)器人操控三種重要的智能任務(wù)。

MineRL 是一款基于“我的世界”（Minecraft）的模擬環(huán)境，主要用于測(cè)試視頻生成模型在復(fù)雜、開放式環(huán)境中的表現(xiàn)。

智能體的任務(wù)是在虛擬環(huán)境中完成諸如采集物品、導(dǎo)航等任務(wù)。評(píng)估框架負(fù)責(zé)判斷生成視頻能否有效引導(dǎo)智能體執(zhí)行這些操作。

CARLA 是一個(gè)用于自動(dòng)駕駛研究的仿真平臺(tái)，評(píng)估視頻生成模型在交通場(chǎng)景中的表現(xiàn)。

研究人員通過(guò)模擬復(fù)雜的城市路況、行人交通等情景，考察模型生成的視頻能否幫助自動(dòng)駕駛系統(tǒng)做出正確決策。評(píng)估指標(biāo)包括路線完成度、碰撞率、違規(guī)行為等。

CALVIN 則是一個(gè)用于機(jī)器人操作的仿真環(huán)境，評(píng)估視頻生成模型能否幫助機(jī)器人完成精確的物理操作任務(wù)，如抓取物體、搬運(yùn)等。

該環(huán)境的操作復(fù)雜度較高，需要生成的視頻能夠準(zhǔn)確反映物體的位置、運(yùn)動(dòng)軌跡和速度變化，其評(píng)估指標(biāo)包括成功率和軌跡生成質(zhì)量等。

在顯性感知評(píng)估中，研究人員使用了 HF-Embodied 數(shù)據(jù)集，并訓(xùn)練了一個(gè)基于人類偏好反饋（Human Preference Evaluator）的評(píng)估器，通過(guò)人類反饋對(duì)生成視頻進(jìn)行了打分。

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)

圖 | 顯性感知評(píng)估概述（來(lái)源：arXiv）

在顯性感知評(píng)估中：

上半部分是指令提示生成。研究人員使用來(lái)自互聯(lián)網(wǎng)的大量視頻字幕和預(yù)定義的體現(xiàn)評(píng)估維度。它們經(jīng)過(guò)了 GPT 擴(kuò)展并由人工驗(yàn)證，以創(chuàng)建相應(yīng)的任務(wù)指令提示列表，用于數(shù)據(jù)生成和評(píng)估。

下半部分是 HF-Embodied 數(shù)據(jù)集生成。使用了大量帶有字幕的互聯(lián)網(wǎng)具身視頻訓(xùn)練數(shù)據(jù)生成模型。然后根據(jù)相應(yīng)的任務(wù)指令提示列表，將細(xì)粒度的人工反饋?zhàn)⑨寫?yīng)用于視頻上，涵蓋多個(gè)體現(xiàn)維度。

在隱性操作評(píng)估中，研究人員通過(guò)將生成的視頻轉(zhuǎn)換為控制信號(hào)，并觀察其在各種閉環(huán)具體任務(wù)中的表現(xiàn)來(lái)隱性評(píng)估模擬器的能力。

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)

圖 | 隱性操作評(píng)估概述（來(lái)源：arXiv）

在隱性操作評(píng)估中：

不同場(chǎng)景下的具身任務(wù)被分解為可執(zhí)行的子任務(wù)。視頻生成模型根據(jù)當(dāng)前指令和實(shí)時(shí)觀察生成相應(yīng)的預(yù)測(cè)視頻。使用預(yù)先訓(xùn)練的 IDM 或基于目標(biāo)的策略，代理執(zhí)行生成的動(dòng)作序列。

在固定的時(shí)間步長(zhǎng)之后，通過(guò)再次從視頻生成模型中采樣來(lái)刷新預(yù)測(cè)視頻，并重復(fù)此過(guò)程。最后，通過(guò)模擬環(huán)境中的監(jiān)視器獲得各種具身任務(wù)的成功率。

實(shí)驗(yàn)結(jié)果表明，該評(píng)估器在判斷視頻的視覺質(zhì)量和物理一致性方面，表現(xiàn)大多優(yōu)于傳統(tǒng)的大型語(yǔ)言模型（如 GPT-4o）。

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)

圖 | 人類偏好評(píng)估器與 GPT-4o 的整體性能比較（來(lái)源：arXiv）

這些數(shù)據(jù)顯示，使用基于兩種評(píng)估方法的 WorldSimBench 框架，研究人員能夠更精確地捕捉到模型在視覺生成中的細(xì)微差異，并且能夠更好地反映人類對(duì)視頻生成的實(shí)際期望。

盡管 WorldSimBench 框架在視頻生成模型評(píng)估方面取得了進(jìn)展，但其依然面臨一些挑戰(zhàn)。

比如，HF-Embodied 數(shù)據(jù)集是依賴于大規(guī)模人工標(biāo)注數(shù)據(jù)，而且現(xiàn)有的評(píng)估場(chǎng)景集中在虛擬仿真環(huán)境中，如何擴(kuò)展到更多真實(shí)世界的場(chǎng)景仍需要繼續(xù)探索。

最后，基于整體的顯性感知評(píng)估和隱性操作評(píng)估結(jié)果，該課題組得出結(jié)論：當(dāng)前的視頻生成模型仍然無(wú)法有效捕捉許多物理規(guī)則。

作者在論文最后強(qiáng)調(diào)，“這表明在它們成為真正的世界模擬器之前，還需要進(jìn)行很多改進(jìn)。”

參考資料：

https://arxiv.org/pdf/2410.18072v1

運(yùn)營(yíng)/排版：何晨龍

上一篇：與OpenAI o1技術(shù)理念相似，TDPO-R算法有效緩解獎(jiǎng)勵(lì)過(guò)優(yōu)化問(wèn)題

下一篇：人工智能失業(yè)潮跟以前不一樣？｜巴倫讀書會(huì)

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-27 07:44:39 瀏覽：1540次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn) 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-27 07:44:39 瀏覽：1540次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

研究人員提出AI評(píng)估框架，能衡量視頻生成模型在具身智能中的表現(xiàn)
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-27 07:44:39 瀏覽：1540次