展會信息港展會大全

中國頂尖AI大牛TOP 2,正在車圈All in端到端
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-08 08:22:54   瀏覽:3511次  

導讀:劃重點 01商湯科技聯(lián)合創(chuàng)始人、首席科學家王曉剛博士在計算機科學全球頂尖科學家排名中位居中國第二,世界第三十七。 02王曉剛的學術成果覆蓋模式識別、機器學習、特征提取和計算機視覺等領域,涉及卷積神經(jīng)網(wǎng)絡、深度學習、人臉識別系統(tǒng)等。 03目前,王曉剛...

劃重點

01商湯科技聯(lián)合創(chuàng)始人、首席科學家王曉剛博士在計算機科學全球頂尖科學家排名中位居中國第二,世界第三十七。

02王曉剛的學術成果覆蓋模式識別、機器學習、特征提取和計算機視覺等領域,涉及卷積神經(jīng)網(wǎng)絡、深度學習、人臉識別系統(tǒng)等。

03目前,王曉剛帶領團隊All in端到端,推動自動駕駛領域的發(fā)展。

04商湯絕影團隊提出了自動駕駛大模型DriveAGI和車載AI Agent,旨在解決端到端自動駕駛的問題。

05除此之外,商湯絕影已與30多家國內(nèi)外車企合作,產(chǎn)品覆蓋超100款車型,累計交付260萬輛智能汽車。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

被引用次數(shù)超過12萬次、H因子高達151、學科H因子139、出版著作150+……

在最新的計算機科學家排名中,這樣的學術成績,是中國第二。

這位AI大牛就是商湯科技聯(lián)合創(chuàng)始人、首席科學家、商湯絕影事業(yè)群總裁王曉剛,是智能車參考的老朋友和出鏡率極高的?汀

中國頂尖AI大牛TOP 2,正在車圈All in端到端

而眼下,王曉剛正帶領著他的團隊All in端到端

中國TOP 2,怎么評出來的知名學術平臺Research.com剛剛公布了計算機科學全球頂尖科學家名單,其中商湯的王曉剛博士排名中國第2,世界第37。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

Research.com的榜單中,從2022年開始王曉剛就一直是中國計算機科學TOP 3的“leader”學者?偙灰么螖(shù)125264次,從2016年之后算,被引用次數(shù)也達到了92560次。

因為是細分的計算機科學排名,所以Research.com使用了較為準確的D-index,及學科內(nèi)H因子作為依據(jù),細化到被調(diào)查學科的論文和引用值,王曉剛博士的這一數(shù)據(jù)為139。

作為對比,深度神經(jīng)網(wǎng)絡之父Geoffrey Hinton的D-index為166。

王曉剛博士被引用次數(shù)前三的論文,分別是Pyramid scene parsing network(15490次引用)、Deep learning face attributes in the wild(9381次引用)、Residual attention network for image classification(4386次引用)。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

尤其是2017年他和團隊提出的PSPNet,深刻影響了后續(xù)圖像語義分割的發(fā)展。其核心思想是利用金字塔池化(Pyramid Pooling Module)模塊,通過使用不同尺度的池化核對輸入特征圖進行池化操作,有效地獲取多尺度的上下文信息。所以網(wǎng)絡能夠更全面地理解圖像中的語義信息,從而提高語義分割的準確性和魯棒性。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

類似的成果還有很多,從內(nèi)容上看,王曉剛的學術成果覆蓋模式識別、機器學習、特征提取和計算機視覺,涉及卷積神經(jīng)網(wǎng)絡、深度學習、人臉識別系統(tǒng)、人臉和判別模型,均屬于人工智能范疇。

模式識別、大語言模型、計算機視覺技術等交叉領域的探索,正是目前自動駕駛領域最熱門、最被看好的方向之一端到端自動駕駛。

所以,在商湯科技成長為平臺型AI公司之后,王曉剛也順理成章帶領團隊向難度更大、落地場景更復雜、規(guī)模潛力更大的汽車工業(yè)發(fā)起沖擊。

不過在介紹王曉剛目前的工作之前,先簡單說一下他的經(jīng)歷。

誰是王曉剛王曉剛是中國科技大學少年班出身,2001年畢業(yè)。

2004年又獲得香港中文大學信息工程碩士學位。

2009年獲得麻省理工學院人工智能實驗室計算機博士學位,同年加入香港中文大學電子工程系,2020年起擔任教授。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

學術方面,王曉剛在頂級的國際期刊和會議發(fā)表超過300篇論文,其論文在Google Scholar上的引用超過120000次,h-index = 151。

他還是國際頂級計算機視覺會議CVPR 2017, ICCV 2011, ICCV 2015, ICCV 2017, ECCV 2014, ECCV 2016, ACCV 2014和ACCV 2015的領域主席。

產(chǎn)業(yè)層面,2014年同樣出身中科大、MIT,任教港中文的世界級AI科學家湯曉鷗,帶領王曉剛、徐立、楊帆等人創(chuàng)辦了商湯科技。

2016年起王曉剛任商湯研究院院長,整體負責商湯科技的研發(fā)工作,建立起包括計算機視覺、自然語言理解、語音識別、混合現(xiàn)實、人工智能內(nèi)容生成、智能影像、通用人工智能、決策智能、智能芯片、人工智能傳感器和人工智能大裝置等眾多領域在內(nèi)的研發(fā)體系。

近幾年間,商湯研究院在全球計算機視覺頂級期刊和會議上(如CVPR、ICCV、ECCV等)共發(fā)表600余篇關于深度學習和計算機視覺的研究論文,在世界所有科研機構和公司排名第一,在各類國際人工智能比賽中獲得超過70項冠軍。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

2022年,商湯將汽車業(yè)務獨立拆分,命名為“絕影“公開亮相,王曉剛為總裁。

據(jù)官方透露絕影目前已經(jīng)和30多家國內(nèi)外車企攜手合作,產(chǎn)品覆蓋超100款車型,累計交付260萬輛智能汽車。

與其他AI公司押注智艙或智駕的單一業(yè)務模式不同,絕影依靠商湯在計算機視覺、大算力轉裝置、大模型基礎架構方面的先行優(yōu)勢,智能駕駛、智慧車艙、車路協(xié)同各個技術路線上不斷拿出量產(chǎn)上車成果。

而今年被點燃的“端到端”浪潮,王曉剛和絕影團隊不但all in,還“血統(tǒng)純正”、上車在即。

王曉剛如何All in端到端從去年CVPR 2023最佳論文到現(xiàn)在整整一年時間,商湯絕影做了這么幾件事。

首先是一段式端到端自動駕駛大模型的產(chǎn)品化、工程化不斷推進,已經(jīng)從幾千行代碼,完成了向符合汽車工業(yè)標準規(guī)范的量產(chǎn)產(chǎn)品的演變。

對于一般的自動駕駛公司來說,這一步可能就是目標和終點,也是最難、最緊迫的挑戰(zhàn)。能全力交付端到端的產(chǎn)品,就能活到下一輪出牌,至于功能、體驗,都可以后期OTA。

但商湯絕影不止步于交付一個單一的自動駕駛模型,更進一步,提出了兩個新的技術和應用:

自動駕駛大模型DriveAGI,和車載AI Agent,幾個月前北京車展期間就曾提及,剛剛結束的WAIC人工智能大會上,又被王曉剛博士著重強調(diào)。

同出一源,都是商湯原生多模態(tài)大模型,同時又都以UniAD端到端大模型為基礎,和自動駕駛、智能座艙的功能、體驗深度關聯(lián)。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

比如UniAD,在無高精地圖,甚至是針對某種類型目標0樣本學習的前提下,也能僅依靠視覺感知實際道路情況,準確地完成包括大角度轉向、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作,做到“像人一樣開車”:

中國頂尖AI大牛TOP 2,正在車圈All in端到端

在路上遇到救護車,它還可以自動避讓;遇到潮汐車道或公交車道時,它能根據(jù)限行規(guī)則自動規(guī)避:

中國頂尖AI大牛TOP 2,正在車圈All in端到端

除此之外,它也可以切換不同的駕駛風格,當需要趕時間時,你可以告訴DriveAGI開得更快些;如果是想要放松下,你還可以讓它開得平穩(wěn)些。

對于智駕,多模態(tài)大模型相當于一個“點讀機”,圖像、視頻數(shù)據(jù)哪里不會點哪里,不理解的目標場景,都能給出準確的解釋。

商湯絕影對于端到端的描述和布道,已經(jīng)和業(yè)內(nèi)主流思路有了底層的區(qū)別:從應對自動駕駛挑戰(zhàn),上升到了AGI在車端應用。

王曉剛認為現(xiàn)在談AGI上車,時機剛好,甚至還有點緊迫,因為AGI應該是端到端的必要條件和前提。

所謂端到端,就是駕駛全流程的AI化,傳感器信息輸入,直接輸出決策數(shù)據(jù)信號。直接的好處,就是可以讓AI模型直接學習成熟的駕駛行為,理論上具備和人一樣的駕駛能力。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

端到端對傳統(tǒng)自動駕駛技術范式的降維打擊,是用數(shù)據(jù)驅(qū)動替代規(guī)則驅(qū)動,解決系統(tǒng)能力上限被鎖死,以及后期無休止高投入、維護難的問題。

這樣的誘人前景讓現(xiàn)在所有玩家都跟進押注。但無論是出于成本考慮還是技術實力所限,現(xiàn)實的情況是大部分產(chǎn)品實現(xiàn)端到端,都是靠“兩段式”方法,即感知模型后面,串一個決策和規(guī)控模型。

但商湯絕影堅持搞“純粹”的一段式端到端模型:輸入一段視頻,輸出一段預測的軌跡。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

王曉剛給出的理由是兩段式首先解決不了信息丟失的問題,但更致命的是后串決策規(guī)控模型,“實際上規(guī)模很小”。

小模型永遠無法激發(fā)出應對復雜場景的通用能力,永遠無法產(chǎn)生自動駕駛的ChatGPT。

所以端到端天然就應該是原生大模型,也只有這樣,才能解決自動駕駛從感知向認知轉變的問題。

所以商湯絕影的DriveAGI誕生,把商湯原生多模態(tài)大腦能力應用在車端,能夠同時輸入、處理多種數(shù)據(jù)類型的模型,可以是文本、語音、圖像、視頻等等。

實際上相當于給端到端自動駕駛系統(tǒng),安裝了一個和人類基本認知能力相同的大腦。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

底層的思路是這樣:既然大語言模型的學習、認知能力已經(jīng)和人類差別不大了,那為什么不能用語言模型基礎的范式框架去處理其他數(shù)據(jù)類型的任務呢?

實際上就是用大模型語義理解能力去看、去分辨圖像、視頻或者任何類型的數(shù)據(jù)。

現(xiàn)在都說只有端到端才能真無圖,沒有無圖就沒有端到端…這樣的觀點背后暗含著系統(tǒng)能夠“認知”世界的前提,但這是狹義端到端模型本身完成不了的任務。

實際上幾乎所有和智能車參考交流過的業(yè)內(nèi)人士,都說現(xiàn)在根本不存在絕對的無圖,各家方案都或多或少要用到相關信息。

或者說“端到端”這個大黑盒,決策過程、思維能力等等開發(fā)者根本就無從知曉,“菩提本無樹”。

現(xiàn)階段,商湯絕影根據(jù)歷史研發(fā)積累和技術發(fā)展趨勢給出的最佳解決方案,就是利用多模態(tài)大模型展現(xiàn)出的通用AI能力,解決自動駕駛的認知問題。

這兩年間Research.com名氣越來越大,他們的學校、學科、學者排名也被越來越多的從業(yè)者和媒體引用參考。

按照Research.com的介紹,它們本質(zhì)上是一家有經(jīng)營性質(zhì)的公司,主要服務對象是四處求學的國際生。

所以它們連續(xù)推出各種榜單排名也合情合理。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

可能也是因為不靠任何學;蜓芯克诿澲,Research.com的榜單含金量被認可程度越來越高。

它們有一支60多人的專家組,包括各個學科的著名學者,但在評選時不依賴某一組選定科學家的意見,也不會直接發(fā)調(diào)查問卷,而是依賴硬性數(shù)據(jù)進行排名。

數(shù)據(jù)要么是公開的,要么來自擁有多年數(shù)據(jù)收集經(jīng)驗的知名、可信的組織。比如有關學院、招生、畢業(yè)、校園設施的一般信息基于最新版本的 IPEDS 和 Peterson數(shù)據(jù)庫。有關學者的信息取自谷歌學術、College Scorecard 數(shù)據(jù)庫等等。

One more thing根據(jù)被引用次數(shù)、H因子、出版物等等客觀公開數(shù)據(jù)進行排名,王曉剛博士是中國計算機科學No.2。

那第一呢?

正是湯曉鷗博士,商湯科技的創(chuàng)始人,王曉剛的老師兼創(chuàng)業(yè)伙伴。

中國頂尖AI大牛TOP 2,正在車圈All in端到端

所以計算機視覺領域,學術水平和綜合應用中國實力最強是誰,應該沒有爭議。


贊助本站

相關內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港