展會信息港展會大全

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-21 20:06:03   瀏覽:156次  

導讀:兩天前,知名 AR 廠商 Rokid 發(fā)布了新一代 AR 眼鏡Rokid Glasses,通過攝像頭、多模態(tài)大模型以及(玻璃衍射)光波導等技術(shù),在一定程度上讓 AR 眼鏡實現(xiàn)了對真實世界的感知與理解,以及對用戶的協(xié)同與展現(xiàn)。然而就當下來說,AI 或者說視覺大模型對真實世界的理解還遠遠不夠,更多還是對二維照片的物體識別,很難像人類一樣具備空間理解能力,也根本無法準確描述物體與物體、物 ......

兩天前,知名 AR 廠商 Rokid 發(fā)布了新一代 AR 眼鏡Rokid Glasses,通過攝像頭、多模態(tài)大模型以及(玻璃衍射)光波導等技術(shù),在一定程度上讓 AR 眼鏡實現(xiàn)了對真實世界的感知與理解,以及對用戶的協(xié)同與展現(xiàn)。

然而就當下來說,AI 或者說視覺大模型對真實世界的理解還遠遠不夠,更多還是對二維照片的物體識別,很難像人類一樣具備空間理解能力,也根本無法準確描述物體與物體、物體與人之間的空間關(guān)系。

而這個問題的答案,或許還是要從大模型技術(shù)中尋找解法。

稍早前,《Pokémon Go》開發(fā)商 Niantic 對外宣布正在開發(fā)「地理空間大模型」(Large Geospatial Model,簡稱 LGM),將利用大規(guī)模機器學習來理解真實世界的空間,借助 LGM 模型實現(xiàn)「空間智能」。

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?

LGM 模型訓練,圖/ Niantic

用全球玩家數(shù)據(jù)打造的「地理空間大模型」

正如 Niantic 在新聞稿中提到的,即使是當今最先進的 AI 模型也難以可視化和推斷場景中的缺失部分,或從新的角度想象一個地方。而在根本上,Niantic 認為借助大語言模型訓練的方式,我們已經(jīng)能讓 AI 實現(xiàn)比擬甚至超越人類空間理解能力的「空間智能」。

野心背后,Niantic 的另一份底氣在于,作為《Pokémon Go》《Ingress》開發(fā)商,Niantic 早就手握全球無數(shù)玩家貢獻的海量真實影像和地圖數(shù)據(jù),并在過去五年中開發(fā)視覺定位系統(tǒng) (VPS) ,在手機上實現(xiàn)根據(jù)單個圖像在 3D 地圖中確定用戶的方位。

事實上,2021 年 Niantic 還發(fā)布過一項名為 ManyDepth 的技術(shù),能夠通過單個手機攝像頭直接創(chuàng)建 3D 地圖,利用機器學習將沒有深度信息的二維圖像轉(zhuǎn)化為帶有深度信息的三維圖像,并且不依賴 LiDAR 或者其他深度傳感器。

而作為 Niantic 視覺定位系統(tǒng)的一部分,LGM 模型目前已經(jīng)訓練了超過 5000 萬個神經(jīng)網(wǎng)絡(luò),擁有超過 150 萬億個參數(shù),能夠在超過 100 萬個位置運行。Niantic 首席科學家 Victor Prisacariu 還表示:

「利用我們的用戶在玩 Ingress 和 Pokémon Go 等游戲時上傳的數(shù)據(jù),我們打造了世界的高保真 3D 地圖,其中包括 3D 幾何形狀(或事物的形狀)和語義理解!

最終,LGM 模型的目標是在全球范圍內(nèi)實現(xiàn)對地理空間的共同理解,即便是那些沒有被玩家掃描過的地方。

但 LGM 模型意義不僅是讓設(shè)備「看懂」真實環(huán)境,提供精準的空間定位。更重要的是,只有讓計算機能夠更準確、高效地感知和理解物理空間,才能更深刻地改變?nèi)伺c機器之間基于物理世界的交互方式,進而推動 AR 眼鏡以及智能機器人真正走進我們的生活。

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?

左邊是 Rokid Glasses,右邊是特斯拉擎天柱,圖/ Rokid、特斯拉

不過具體到 AR 眼鏡上,LGM 模型的推出真的會如人們期待的那樣,加速 AR 眼鏡的普及嗎?甚至成為 AR 行業(yè)的「一腳地板油」?這不是一個容易解答的問題。

地理空間大模型,AR版的「高精地圖」?

在 AR 眼鏡中,準確的空間定位一直是重中之重,這一點相信早已不言而喻。問題在于,現(xiàn)行的 SLAM(同步定位與建圖)空間定位技術(shù)就像一位即興作畫的畫家:通過攝像頭等傳感器,實時描繪周圍環(huán)境的地圖并確定自身的位置。

但要用這種「即看即建」的方式實現(xiàn)準確的空間定位,不僅依賴傳感器支持,往往還需要較高的性能與續(xù)航開銷,對于內(nèi)部空間「寸土寸金」的 AR 眼鏡來說,始終是不小的壓力。AR 廠商不是沒想過新的解決方案,比如 Rokid AR Studio 上就實現(xiàn)了基于單目攝像頭的空間定位和手勢識別,也只是降低了硬件門檻和成本。

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?

Rokid AR Studio,圖/ Rokid

而與之相對,LGM 模型和 SLAM 技術(shù)可以理解為 AR 眼鏡的「地圖」和「指南針」:LGM 提供了一幅全局性的高精度地圖,為設(shè)備提供宏觀層面的環(huán)境理解;SLAM 則像指南針,幫助設(shè)備在未知或動態(tài)環(huán)境中快速調(diào)整和適應(yīng)。

通過構(gòu)建了一套全球性的高精度 3D 地圖,LGM 模型能夠提供詳盡的地理空間信息。對于 AR 眼鏡來說,這種預先構(gòu)建的地圖意味著在已知環(huán)境中無需從零開始建圖,而是可以直接利用 LGM 提供的全局地圖進行精準定位,理論上可以在不影響準確性的前提下,大幅削減性能開銷,尤其在室外場景。

想象一下,當你在一個陌生的城市中尋找餐館,AR 眼鏡讓導航箭頭更準確地貼合地面,更精確地指向餐館的入口,而不是像過去那樣懸浮在半空,只能提供粗略的方向。這種視覺上的準確性不僅提高了便利性,也增強了用戶對 AR 眼鏡的信任感。

另一方面,LGM 模型對空間的「語義理解」,對于 AR 眼鏡的意義不只是識別環(huán)境,還在于「理解」環(huán)境。與 SLAM 只是繪制幾何地圖不同,LGM 模型還能通過語義理解為空間中的物體賦予了具體意義,讓 AR 眼鏡能夠理解環(huán)境的上下文,將虛擬的 3D 物體合理地放置在真實空間的方位中。

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?

任天堂與 Niantic 合作的《皮克敏》AR 手游,圖/ Niantic

這一點也與現(xiàn)有視覺模型依賴二維圖像識別技術(shù)不同,視覺模型更多只能識別出眼前是「路」還是「樹」,卻無法理解這些物體在空間中的位置,自然也無從談起虛擬內(nèi)容在真實空間的合理放置。

不過眾所周知,《Pokémon Go》并未進入中國,中國市場也始終沒有出現(xiàn)一款能夠進入大眾視野的 AR+LBS 游戲。類似 LGM 的地理空間大模型,在中國還沒有出現(xiàn)成長的土壤。

但視覺大模型其實也有潛力從二維平面的物體識別進化到三維空間的理解,具備「空間智能」,甚至是視頻生成模型也有可能。就像 OpenAI Sora 出現(xiàn)之初,以 360 創(chuàng)始人周鴻為代表的一部分人都認為 Sora 不僅是視頻生成模型,還是能夠最終理解物理世界的「世界模型」。

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?

Sora,圖/ OpenAI

再有,Niantic 的 LGM 目前仍在開發(fā)中,理論上的潛力是一方面,實際上的表現(xiàn)則是另一方面,還很難斷言它的未來。

AI大模型改變 AR 眼鏡,一切才剛開始

在之前的報道,雷科技多次提到一個觀點:最近一年多智能眼鏡的關(guān)鍵轉(zhuǎn)變在于大模型帶來的自然理解能力大升級,帶來了人機語音交互的質(zhì)變,這是交互方式有限的智能眼鏡能夠爆發(fā)的前提條件。

這一點對于 AR 眼鏡其實亦然。雖然包括 Rokid、雷鳥創(chuàng)新都在嘗試各種交互方式,比如 Rokid 基于單目攝像頭的手勢交互,雷鳥創(chuàng)新基于智能戒指的交互,但實際上主流產(chǎn)品線受限于性能、體驗和成本等因素,語音和觸摸交互,才是核心的交互方式。

Pokémon Go開發(fā)地理空間大模型,AR眼鏡的高精地圖?

雷鳥 X2,圖/雷鳥創(chuàng)新

從這個角度看,AI 語音交互帶來的質(zhì)變也就不言自明了,可以明顯改善 AR 眼鏡在人機交互方式上的短板。而與此同時,大模型也在帶來計算機視覺能力上的「基因突變」,決定著 AR 眼鏡的未來方向。

誠然,目前 AI 視覺的價值才剛剛嶄露頭腳,比如基于周圍環(huán)境的實時問答、直接翻譯外文進行播報或文本呈現(xiàn)等,都能做到比以往更低的成本、更好的體驗。另外,地理空間大模型、能夠理解世界的視頻生成模型,對于 AR 眼鏡來說也還未真正達到可用。

但不管從交互體驗,還是 AR 眼鏡的「減重」來看,基于攝像頭的 AI 視覺(端云混合)在理論上都有更高的潛力,不僅能降低空間交互的復雜度和門檻,也能減少傳感器和傳統(tǒng)計算開銷,從而做到重量和成本的降低、續(xù)航的提升。

一言以蔽之,大模型改變 AR 眼鏡的旅程,還遠沒有走到終點。

贊助本站

相關(guān)熱詞: ar眼鏡 pokémon go ar 眼鏡 niantic rokid 地圖

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港