《科創(chuàng)板日報》12月23日訊(編輯 宋子喬) 有著“AI教母”之稱的斯坦福大學教授李飛飛又有新發(fā)現(xiàn)盡管空間推理能力依然薄弱,但多模態(tài)大模型已經能夠記住和回憶空間,甚至內部已經形成了局部世界模型,表現(xiàn)出了空間意識。
來自紐約大學、耶魯大學、斯坦福大學的研究者引入了VSI-Bench,這是一個用于評估多模態(tài)大模型視覺空間智能能力的工具。VSI-Bench包含了超過5000個問答對,這些問答對來源于288個真實視頻。這些視頻包括居住空間、專業(yè)場所(例如,辦公室、實驗室)和工業(yè)場所(例如,工廠)以及多個地理區(qū)域。VSI-Bench的質量很高,經過迭代審查以最小化問題的歧義,并移除了從源數(shù)據(jù)集中傳播的錯誤注釋。
通過5000多個問答對,研究人員發(fā)現(xiàn)多模態(tài)大模型表現(xiàn)出了有競爭性的視覺空間智能(盡管仍然低于人類)人類評估者的平均準確率達到79%,比最佳模型高出33%,在配置和時空任務上的表現(xiàn)接近完美(94%-100%)。
哪些模型的空間智能能力更強?
在專有模型中,Gemini-1.5 Pro脫穎而出,盡管只在2D數(shù)字數(shù)據(jù)上進行訓練,但它大大超過了機會基線,并在絕對距離和房間大小估計等任務中接近人類表現(xiàn);表現(xiàn)最佳的開源模型,如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B,取得了有競爭力的結果,僅落后Gemini-1.5 Pro 4%-5%。然而,大多數(shù)開源模型(7/12)都低于機會基線,暴露出視覺空間智能的明顯缺陷。
在最新研究中,研究人員還給出了提升大模型空間智能能力的潛在路徑。
這項研究系統(tǒng)評估了多模態(tài)大模型的視覺空間智能后發(fā)現(xiàn),思維鏈、思維樹、自洽性等常用的語言提示技術不僅沒有提升模型在空間任務上的表現(xiàn),反而會使性能下降,而問答過程中明確生成認知地圖則會增強多模態(tài)大模型的空間距離能力使用認知地圖輔助空間推理,可使模型在空間任務上的準確率提升了10個百分點。
相關論文已發(fā)布,合著作者中不僅有李飛飛,還有紐約大學計算機科學助理教授、CV大牛謝賽寧。
謝賽寧表示,視覺空間智能在現(xiàn)實世界中的應用,比以往任何時候都更近了。比如AI眼鏡,它可以向我們顯示去過的地方,還能定位、導航。
李飛飛也表示,在2025年,空間智能的界限很可能會再次突破,“這項名為“Thinking in Space”的研究,是對大模型在空間推理方面表現(xiàn)的評估,而空間推理對人類智能至關重要!
視頻理解能力無疑是AI大模型的下一個待攻關高地。當前的多模態(tài)大模型在2D空間的推理能力不斷增強,可以較好地處理語言對話任務和視頻圖像任務,但在空間認知和理解方面的能力仍未得到充分研究。
空間智能對于模型理解物理世界而言至關重要。
李飛飛對空間智能的定義是:空間智能是機器在3D空間和時間中感知、推理和行動的能力。
在她看來,空間智能是AI領域的下一個前沿技術方向,是她的下一個“北極星”。
李飛飛此前表示,實現(xiàn)AGI(通用人工智能)的關鍵一環(huán)是“空間智能”,盡管OpenAI的Sora模型可以文生視頻,但就本質而言,它仍屬平面二維模型,沒有三維立體理解能力,只有通過空間智能,才能看到世界、感知世界、理解世界并讓機器人做事,從而形成良性閉環(huán)。
今年9月份,在成功融資2.3億美元后,李飛飛創(chuàng)辦的空間智能公司World Labs正式啟動。據(jù)介紹,World Labs的目標是開發(fā)一種能夠理解實體世界的模型。今年7月,有消息稱在完成兩輪融資后,World Labs的估值已超過10億美元,該公司的投資機構可以說是耳熟能詳,包括安德森霍羅威茨(Andreessen Horowitz,又名a16z)、Adobe、AMD、Databricks、英偉達、AI基金Radical Ventures等。
(科創(chuàng)板日報 宋子喬)