劃重點(diǎn)
01智駕行業(yè)正快速迭代,端到端技術(shù)成為新的技術(shù)范式,但谷歌DeepMind推出的VLA模型將端到端與多模態(tài)大模型結(jié)合得更徹底。
02VLA模型最早見(jiàn)于機(jī)器人行業(yè),今年10月底,谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo推出了基于端到端的自動(dòng)駕駛多模態(tài)模型EMMA。
03事實(shí)上,VLA模型可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”,對(duì)智駕的演進(jìn)意義重大。
04然而,VLA模型的上車(chē)難度不小,對(duì)技術(shù)和車(chē)端的芯片算力都有高強(qiáng)度要求,預(yù)計(jì)2026年才會(huì)出現(xiàn)支持VLA模型上車(chē)交付的芯片。
05由于此,后發(fā)制人的機(jī)會(huì)更加稀少,端到端技術(shù)變奏為車(chē)企帶來(lái)了更高的挑戰(zhàn)。
以上內(nèi)容由大模型生成,僅供參考
文|李安琪
編輯|李勤
像海鮮市場(chǎng)一樣,智能駕駛行業(yè)技術(shù)浪潮正在快速更迭。“端到端”剛成為新的技術(shù)范式,甚至大量公司還沒(méi)來(lái)得及完成研發(fā)模式切換,端到端就進(jìn)入了技術(shù)換代時(shí)期。
“端到端”的最新進(jìn)化方向是,深度融入多模態(tài)大模型。過(guò)去兩年,大模型已經(jīng)展現(xiàn)出了讀文、識(shí)圖、拍電影的能力,但大模型開(kāi)車(chē)恐怕還是頭一遭。
近期,智駕行業(yè)出現(xiàn)了一個(gè)融合了視覺(jué)、語(yǔ)言和動(dòng)作的多模態(tài)大模型范式VLA(Vision-Language-Action Model,即視覺(jué)-語(yǔ)言-動(dòng)作模型),擁有更高的場(chǎng)景推理能力與泛化能力。不少智駕人士都將VLA視為當(dāng)下“端到端”方案的2.0版本。
事實(shí)上,VLA模型最早見(jiàn)于機(jī)器人行業(yè)。2023年7月28日,谷歌 DeepMind推出了全球首個(gè)控制機(jī)器人的視覺(jué)語(yǔ)言動(dòng)作(VLA)模型。
不過(guò)這個(gè)模型概念正快速擴(kuò)散到智駕領(lǐng)域。今年10月底,谷歌旗下自動(dòng)駕駛公司W(wǎng)aymo推出了一個(gè)基于端到端的自動(dòng)駕駛多模態(tài)模型EMMA。有行業(yè)人士表示,這就是一個(gè)VLA模型架構(gòu),既有端到端智駕能力,還融合了多模態(tài)大模型。
過(guò)去,智能駕駛行業(yè)基于規(guī)則算法,進(jìn)行了十?dāng)?shù)年探索。近兩年,特斯拉引領(lǐng)的“端到端”智能駕駛,成為新的技術(shù)方向,不僅讓智駕具備更擬人的表現(xiàn),也能應(yīng)對(duì)城市中海量的復(fù)雜交通場(chǎng)景。
配合“端到端”技術(shù),行業(yè)玩家還會(huì)增加大語(yǔ)言模型等來(lái)提升智駕能力上限。端到端+VLM(視覺(jué)語(yǔ)言模型),就被理想等公司推崇。
但不同于VLM相對(duì)獨(dú)立、低頻地為端到端提供駕駛建議的模式,VLA架構(gòu)下,端到端與多模態(tài)大模型的結(jié)合會(huì)更徹底。就連理想人士也向36氪汽車(chē)坦承,“可以把VLA看成是端到端+VLM的合體。”
VLA模型,很可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”。
有行業(yè)人士表示,VLA模型對(duì)智駕的演進(jìn)意義重大,讓端到端理解世界的能力更強(qiáng)后,“長(zhǎng)遠(yuǎn)來(lái)看,在L2輔助駕駛到L4自動(dòng)駕駛的飛躍中,VLA可能會(huì)成為關(guān)鍵跳板”。
一些車(chē)企智駕玩家已經(jīng)在暗自發(fā)力。此前,理想汽車(chē)曾在三季度財(cái)報(bào)電話會(huì)議上表示,內(nèi)部已經(jīng)啟動(dòng)了L4級(jí)別自動(dòng)駕駛的預(yù)研,在當(dāng)前的技術(shù)路線基礎(chǔ)上,研發(fā)能力更強(qiáng)的車(chē)端VLA模型與云端世界模型相結(jié)合的強(qiáng)化學(xué)習(xí)體系。
智駕公司元戎啟行在獲得長(zhǎng)城汽車(chē)的7億元注資之后,也表示將進(jìn)一步布局VLA模型。元戎啟行稱(chēng),公司將基于英偉達(dá)最新智駕芯片Thor進(jìn)行VLA模型研發(fā),模型預(yù)計(jì)于2025年推出。
但也存有共識(shí),VLA模型的上車(chē)難度不小,對(duì)技術(shù)和車(chē)端的芯片算力都有高強(qiáng)度要求,“能夠支持VLA模型上車(chē)交付的芯片,可能在2026年才會(huì)出現(xiàn)!
端到端最新方向:融入多模態(tài)大模型
自2023年以來(lái)智駕行業(yè)掀起的BEV、端到端技術(shù)浪潮后,智駕正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案,基于AI、數(shù)據(jù)驅(qū)動(dòng)的“端到端”擁有更高能力天花板。
圖源:元戎啟行
但在“端到端”模型之外,車(chē)企們還輔以了大語(yǔ)言模、視覺(jué)語(yǔ)言模型等外掛,來(lái)提供更強(qiáng)大的環(huán)境理解能力。年中,理想就推出了端到端模型+VLM(視覺(jué)語(yǔ)言模型)的方案。VLM模型對(duì)復(fù)雜交通環(huán)境具有更強(qiáng)的理解能力,可以給端到端提供相關(guān)駕駛建議。
不過(guò)據(jù)36氪汽車(chē)了解,理想的端到端模型+VLM模型,是相對(duì)獨(dú)立的兩個(gè)模型!袄硐隫LM占用了一顆Ori芯片算力,目前主要對(duì)限速提醒等場(chǎng)景做出駕駛建議!
而VLA模型,是將端到端、VLM兩個(gè)模型合二為一。也就是說(shuō),多模態(tài)大模型不再作為端到端的外掛,而是成為端到端自生的一種能力。
谷歌Waymo近期發(fā)表的論文中,端到端自動(dòng)駕駛多模態(tài)模型,不僅將攝像頭的視頻和圖像作為感知輸入,同時(shí)還能以谷歌地圖“請(qǐng)?jiān)谇胺降诙䝼(gè)匝道右轉(zhuǎn)出匝道”這種指令作為輸入,以及結(jié)合車(chē)輛歷史狀態(tài),輸出車(chē)輛未來(lái)軌跡。
有行業(yè)人士向36氪汽車(chē)表示,目前對(duì)于一些特殊的復(fù)雜場(chǎng)景,智駕仍然缺少學(xué)習(xí)數(shù)據(jù)樣本。如果融入模態(tài)大模型,就能將大模型學(xué)習(xí)到的知識(shí)遷移給智駕系統(tǒng),可以有效應(yīng)對(duì)corner case(長(zhǎng)尾場(chǎng)景)。
智駕公司元戎啟行CEO周光也認(rèn)為,VLA模型是端到端的2.0版本。他表示,遇到一些復(fù)雜的交通規(guī)則、潮汐車(chē)道、長(zhǎng)時(shí)序推理等特殊場(chǎng)景時(shí),智駕會(huì)比過(guò)往理解、應(yīng)對(duì)得更好。
比如在推理時(shí)長(zhǎng)上,傳統(tǒng)rule-base(基于規(guī)則)方案下,智駕只能推理1秒鐘路況信息然后做出決策控制;端到端1.0階段系統(tǒng)能夠推理出未來(lái)7秒路況,而VLA能對(duì)幾十秒路況進(jìn)行推理。
“目前基本上大家沿著這條線已經(jīng)預(yù)研1年多了,不過(guò)明年想要量產(chǎn)還是有很大難度!庇行袠I(yè)人士表示。
端到端變奏,后發(fā)者的機(jī)會(huì)更少了
在進(jìn)入規(guī)模推廣之前,下一代端到端方案還面臨很現(xiàn)實(shí)的挑戰(zhàn)。
一方面,現(xiàn)階段車(chē)端芯片硬件不足以支撐多模態(tài)大模型的部署落地。有行業(yè)人士向36氪汽車(chē)表示,將端到端與VLM模型二合一后,車(chē)端模型參數(shù)變得更大,既要有高效實(shí)時(shí)推理能力,同時(shí)還要有大模型認(rèn)識(shí)復(fù)雜世界并給出建議的能力,對(duì)車(chē)端芯片硬件有相當(dāng)高要求。
當(dāng)下,高階智駕的算力硬件基本為2顆英偉達(dá)OrinX芯片,算力在508Tops。有行業(yè)人士表示,現(xiàn)在車(chē)端的算力很難支撐VLA模型的部署。
而英偉達(dá)的最新一代車(chē)載AI芯片Thor有望改變這種局面,Thor的單片AI算力達(dá)1000Tops,并對(duì)AI、大模型等算力都有不錯(cuò)支持。
不過(guò)跟英偉達(dá)接觸的人士向36氪汽車(chē)表示,明年英偉達(dá)Thor芯片大概會(huì)延期發(fā)布,上半年最先有望先推出的是700Tops算力版本。但一顆700Tops算力的芯片也可能支撐不了VLA模型,兩片Thor的成本又高出不少。
英偉達(dá)的芯片量產(chǎn)時(shí)間與成本挑戰(zhàn),橫亙?cè)谲?chē)企前面。為此,一些自研芯片的新勢(shì)力也在緊追芯片進(jìn)度。據(jù)36氪汽車(chē)了解,一家頭部新勢(shì)力的VLA模型預(yù)計(jì)2026年正式上車(chē)!皩脮r(shí)結(jié)合自研的大算力芯片,VLA的效果會(huì)更驚艷!鄙鲜鲂袠I(yè)人士表示。
好在,VLA模型架構(gòu)下,數(shù)據(jù)方面的挑戰(zhàn)沒(méi)有驟然提升。
有行業(yè)人士告訴36氪,在端到端基礎(chǔ)上,VLA模型融入了視覺(jué)語(yǔ)言模型、動(dòng)作模型。但多模態(tài)大模型的數(shù)據(jù)并不難獲得,包括已經(jīng)開(kāi)源的大模型、互聯(lián)網(wǎng)上已有的通用語(yǔ)言,都可能成為智駕多模態(tài)大模型的養(yǎng)料。
更具挑戰(zhàn)的是,如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度交融。這考驗(yàn)著頭部智駕團(tuán)隊(duì)的模型框架定義能力、模型快速迭代能力。
這些都決定了VLA模型不會(huì)太快進(jìn)入智駕的量產(chǎn)環(huán)節(jié)。
然而,技術(shù)路線的驟然升級(jí)與競(jìng)賽變奏,為還沒(méi)發(fā)力端到端的玩家設(shè)置了更高門(mén)檻,后發(fā)制人的機(jī)會(huì)更加稀少。