夢(mèng)晨 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
大模型時(shí)代,有個(gè)大家普遍焦慮的問(wèn)題:如何落地?往哪落地?
聚光燈下最耀眼的OpenAI,最近也先被曝出資金告急,后又尋求新一輪10億美元新融資。
但在中國(guó),有這么一家公司:
它的多模態(tài)大模型不僅在多個(gè)權(quán)威數(shù)據(jù)集上的表現(xiàn)超過(guò)了OpenAI,更是用一個(gè)個(gè)落地案例告訴大家,大模型并不僅僅包括大語(yǔ)言模型,視覺(jué)大模型和多模態(tài)大模型在產(chǎn)業(yè)界有更大的想象空間。
這家公司就是格靈深瞳,它曾因“A股AI視覺(jué)第一股”的標(biāo)簽為人熟知,如今以新姿態(tài)再次刷新外界認(rèn)知:大模型落地先行者。
銀行安防領(lǐng)域,AI算法規(guī);瘧(yīng)用,落地10000+銀行網(wǎng)點(diǎn)
城市管理領(lǐng)域,交通治理業(yè)務(wù)在10余個(gè)省市開(kāi)展試點(diǎn)及落地應(yīng)用
商業(yè)零售領(lǐng)域,智慧案場(chǎng)解決方案落地全國(guó)20余省市近1000個(gè)項(xiàng)目
體育教育領(lǐng)域,相關(guān)產(chǎn)品方案已在全國(guó)多個(gè)校園試點(diǎn)應(yīng)用,為100000+名在校師生提供日常教學(xué)支持與考試服務(wù)
……
取得這樣的成績(jī)背后,離不開(kāi)格靈深瞳在大模型技術(shù)層面取得的進(jìn)展:
自研視覺(jué)大模型Unicom v2,在多業(yè)務(wù)數(shù)據(jù)集上平均優(yōu)于OpenAI的CLIP、Meta的DINOv2和蘋(píng)果的DFN
基于Unicom的深瞳靈感-7B多模態(tài)大模型在業(yè)界同等規(guī)模的VLM模型中居領(lǐng)先地位,優(yōu)于業(yè)界普遍使用的OpenAI CLIP和谷歌 SigLIP
其中,Unicom v2相關(guān)論文還入選AI頂會(huì)ECCV 2024。
雖然現(xiàn)在不加限定的使用“大模型”一詞,默認(rèn)就是指“大型語(yǔ)言模型”,Large Language Model。
但從格靈深瞳的故事中可以看到,視覺(jué)大模型、多模態(tài)大模型在原本視覺(jué)AI的存量市場(chǎng)依然大有可為,而且壁壘依然深厚。
多模態(tài)給傳統(tǒng)視覺(jué)AI帶來(lái)什么改變?早在2022年,格靈深瞳就開(kāi)始自研視覺(jué)大模型,但當(dāng)時(shí)想要推進(jìn)落地,還是遇到了瓶頸:
今天已為人熟知的大模型、Transformer、Scaling Law等等,當(dāng)時(shí)還未成為行業(yè)共識(shí)。彼時(shí)的主流是不斷優(yōu)化卷積神經(jīng)網(wǎng)絡(luò),把模型做孝最好能直接在邊緣設(shè)備運(yùn)行。
總而言之,當(dāng)時(shí)很難說(shuō)服客戶(hù)接受大模型這一前沿但成本高昂的技術(shù)。
然而ChatGPT橫空出世,徹底改變了這一切。
一方面,它以直觀的人機(jī)對(duì)話(huà)方式向公眾展示了算力與效果的正相關(guān),人們終于意識(shí)到“大量投入算力,才能獲得理想中的效果”。
另一方面,硬件也開(kāi)始主動(dòng)適配Transformer算法,比如英偉達(dá)在Hopper架構(gòu)GPU中首次引入專(zhuān)用Transformer引擎。
從某種意義上說(shuō),ChatGPT是替所有AI公司做好了教育市場(chǎng)的工作。
視覺(jué)AI在這一階段經(jīng)歷了與語(yǔ)言模型類(lèi)似的,從“模塊化”到“一體化”的范式轉(zhuǎn)變。
傳統(tǒng)的檢測(cè)、分割、分類(lèi)等任務(wù)需要針對(duì)性設(shè)計(jì)復(fù)雜的特征工程和網(wǎng)絡(luò)結(jié)構(gòu),而視覺(jué)大模型則以統(tǒng)一的Transformer骨干直接學(xué)習(xí)圖像到特征再到應(yīng)用輸出的端到端映射。
格靈深瞳自研視覺(jué)大模型Unicom系列就是這一轉(zhuǎn)變的成果,通過(guò)做大數(shù)據(jù)的規(guī)模、做大計(jì)算的規(guī)模來(lái)做強(qiáng)通用能力,讓模型以統(tǒng)一的方式對(duì)世界進(jìn)行“理解”和“泛化”。
如果說(shuō)視覺(jué)大模型是讓AI“看到了世界”,再結(jié)合語(yǔ)言模型則是讓AI升級(jí)為“看懂了世界”,大大拓寬了應(yīng)用邊界。
以格靈深瞳多年深耕的銀行安防行業(yè)為例,如何讓AI判斷攝像頭畫(huà)面中是否有人在打架?
這涉及動(dòng)作識(shí)別、對(duì)視角遮擋的推斷等等多項(xiàng)難點(diǎn),在AI 1.0時(shí)代需要復(fù)雜的規(guī)則和閾值設(shè)計(jì),再加上難以采集的數(shù)據(jù)樣本,工程量巨大且效果有限。
而加入語(yǔ)言模型后,只需把視頻幀連續(xù)輸入并描述場(chǎng)景,模型就能從語(yǔ)義層面判斷這是否屬于打斗行為。
“面對(duì)各種長(zhǎng)尾、復(fù)雜場(chǎng)景,多模態(tài)的優(yōu)勢(shì)就體現(xiàn)出來(lái)了。”格靈深瞳工程研發(fā)副總裁周瑞認(rèn)為,“它讓以前難以想象的應(yīng)用變成了可能。”
同樣,在工業(yè)質(zhì)檢領(lǐng)域,以前要針對(duì)每種缺陷去采集標(biāo)注數(shù)據(jù),代價(jià)高昂且泛化性差,更何況一些稀有缺陷數(shù)據(jù)總量根本就不夠。
而通用視覺(jué)大模型具備少樣本學(xué)習(xí)、跨場(chǎng)景泛化的能力,再結(jié)合上語(yǔ)言模型的多模態(tài)生成范式,現(xiàn)在AI只要智能識(shí)別到缺陷,同時(shí)就能給出文字描述,供現(xiàn)場(chǎng)工作人員參考。
除了在單項(xiàng)任務(wù)中,多模態(tài)大模型的推理和生成能力,還可以在整個(gè)系統(tǒng)中承擔(dān)任務(wù)分配的“路由”作用。
例如格靈深瞳覆蓋某銀行10000+網(wǎng)點(diǎn)的解決方案,形成總-分-支三層架構(gòu):總行利用大模型訓(xùn)練通用模型,分發(fā)至各地分行。各省分行結(jié)合自身業(yè)務(wù)特點(diǎn),定期微調(diào)優(yōu)化模型。支行則直接應(yīng)用本地分行下發(fā)的模型調(diào)用服務(wù)。
在視頻結(jié)構(gòu)化方面,邊緣端負(fù)責(zé)提取人、車(chē)、物等目標(biāo)的實(shí)時(shí)信息并上傳。若無(wú)法判別的復(fù)雜場(chǎng)景,則發(fā)送至中心端請(qǐng)求二次識(shí)別。云端利用多模態(tài)大模型,從語(yǔ)義層面對(duì)場(chǎng)景內(nèi)容做更全面的理解。
此外,基于多模態(tài)大模型強(qiáng)大的數(shù)據(jù)匯聚與語(yǔ)義理解能力,該行還打通了原本割裂的各類(lèi)監(jiān)控?cái)?shù)據(jù)。目前正著手建設(shè)一套覆蓋全行的“AI中臺(tái)”,可靈活調(diào)度跨網(wǎng)點(diǎn)、跨系統(tǒng)的數(shù)據(jù)和算力,快速響應(yīng)總分支的各種臨時(shí)需求。
這套架構(gòu)能隨時(shí)利用零散的多模態(tài)數(shù)據(jù)對(duì)大模型做增量學(xué)習(xí)提升,讓整個(gè)銀行集團(tuán)的AI平臺(tái)像一個(gè)不斷進(jìn)化的“中央大腦”。
弱監(jiān)督學(xué)習(xí)開(kāi)啟視覺(jué)的Scaling Law格靈深瞳視覺(jué)大模型的進(jìn)化之路,開(kāi)始于做自研的視覺(jué)基座模型Unicom。
最初的v1版本參考人臉識(shí)別的特征學(xué)習(xí)方式,把網(wǎng)絡(luò)直接改成了ViT結(jié)構(gòu),數(shù)據(jù)也從人臉擴(kuò)展到4億通用圖像,精度就超過(guò)了當(dāng)時(shí)最好的對(duì)比學(xué)習(xí)模型。
但圖像數(shù)據(jù)不像文本,天然就有高密度的語(yǔ)義信息,無(wú)需標(biāo)注就能通過(guò)“預(yù)測(cè)下一個(gè)token”任務(wù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)。
如何擴(kuò)大視覺(jué)大模型數(shù)據(jù)規(guī)模,無(wú)需標(biāo)注也能利用好更多圖像數(shù)據(jù)呢?
格靈深瞳團(tuán)隊(duì)逐漸探索出一種新穎的弱監(jiān)督方式:先用一個(gè)特征聚類(lèi)模型,把相似圖片自動(dòng)歸類(lèi)到一起,視為同一類(lèi)別。然后基于聚類(lèi)結(jié)果,為每張圖像分配一個(gè)“軟標(biāo)簽”,作為訓(xùn)練目標(biāo)。
這種做法為無(wú)標(biāo)簽數(shù)據(jù)注入了豐富的語(yǔ)義信息。
具體來(lái)說(shuō),格靈深瞳開(kāi)發(fā)了多標(biāo)簽聚類(lèi)辨別(MLCD)方法,在聚類(lèi)步驟中為每個(gè)圖像選擇多個(gè)最近的聚類(lèi)中心作為輔助類(lèi)標(biāo)簽,以考慮圖像中不同粒度的視覺(jué)信號(hào)。
與此配合,他們還設(shè)計(jì)了一種消除多標(biāo)簽分類(lèi)歧義的損失函數(shù)。
不同于常規(guī)的多標(biāo)簽損失函數(shù)通過(guò)縮小類(lèi)內(nèi)相似度和類(lèi)間相似度的相對(duì)差距來(lái)優(yōu)化,本文引入了另外兩個(gè)優(yōu)化目標(biāo):最小化類(lèi)間相似度和最大化類(lèi)內(nèi)相似度,從而可以?xún)?yōu)雅地分離正類(lèi)損失和負(fù)類(lèi)損失,減輕決策邊界上的歧義。
團(tuán)隊(duì)在更大規(guī)模的模型和數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,進(jìn)一步證明了所提出方法的有效性和可擴(kuò)展性。
Unicom v2正是基于這一思路,將數(shù)據(jù)規(guī)模、參數(shù)規(guī)模再次擴(kuò)大,精度再創(chuàng)新高,成功刷新多項(xiàng)記錄。
有了Unicom強(qiáng)大的通用視覺(jué)理解能力,再結(jié)合上語(yǔ)言模型,就組成了深瞳靈感-7B多模態(tài)大模型。
該模型不僅在傳統(tǒng)的單圖問(wèn)答上表現(xiàn)優(yōu)異,在多圖推理、圖文增量學(xué)習(xí)等前沿任務(wù)上也展現(xiàn)出了巨大潛力。
正如格靈深瞳在22年就開(kāi)始探索ViT架構(gòu)的視覺(jué)大模型落地,現(xiàn)在研究團(tuán)隊(duì)也在思考什么是能超越Transformer的下一代架構(gòu)。
最近,他們嘗試用RWKV(Receptance Weighted Key Value)這一基于RNN的序列建模方法替代主流的ViT架構(gòu),訓(xùn)練出了視覺(jué)語(yǔ)言模型RWKV-CLIP。
RWKV能在線性時(shí)間內(nèi)處理任意長(zhǎng)度序列,大幅降低推理時(shí)的計(jì)算復(fù)雜度,有望釋放多模態(tài)AI能力在更多邊緣、終端設(shè)備上。
值得一提的是,格靈深瞳還將RWKV-CLIP代碼和模型權(quán)重開(kāi)源到GitHub,供業(yè)界一起探討,共同進(jìn)步。
視覺(jué)AI公司做多模態(tài),是一種不同的打法放眼當(dāng)下,不乏大模型公司試水多模態(tài)應(yīng)用。
但多是簡(jiǎn)單的技術(shù)Demo、帶上傳圖片的聊天機(jī)器人、個(gè)人AI助手等輕量級(jí)形態(tài)切入,真正深入產(chǎn)業(yè)的尚不多見(jiàn)。
歸根到底,把AI算法與特定行業(yè)場(chǎng)景深度融合的經(jīng)驗(yàn),是難以在短期內(nèi)獲得的。
讓多模態(tài)大模型技術(shù)在更多地方發(fā)揮價(jià)值,還需要有視覺(jué)AI基因、掌握行業(yè)場(chǎng)景的公司。
拿著大模型到處找落地場(chǎng)景,和在已深耕多年的場(chǎng)景用大模型做升級(jí)改造,是兩種完全不同的打法。
縱觀歷史,互聯(lián)網(wǎng)作為現(xiàn)代社會(huì)的一種基礎(chǔ)設(shè)施,幾十年來(lái)積累的大量文本數(shù)據(jù),最終成就了大語(yǔ)言模型公司。
接下來(lái),視覺(jué)AI時(shí)代建設(shè)的大量攝像頭、積累的圖像視頻數(shù)據(jù)也會(huì)成就一批多模態(tài)大模型公司。
至于為什么是語(yǔ)言模型先一步完成蛻變,格靈深瞳認(rèn)為是圖像數(shù)據(jù)中的分布更不均勻,比如很容易獲得一家上市公司的財(cái)報(bào)文檔,但很難通過(guò)開(kāi)放數(shù)據(jù)來(lái)獲取一家公司大量的圖像。
到了專(zhuān)業(yè)細(xì)分場(chǎng)景,如醫(yī)療影像、工業(yè)缺陷,可獲取的訓(xùn)練數(shù)據(jù)體量更是遠(yuǎn)不及互聯(lián)網(wǎng)語(yǔ)料。
但換個(gè)角度從應(yīng)用價(jià)值來(lái)看,視覺(jué)數(shù)據(jù)直接反映現(xiàn)實(shí)世界,與城市治理、工業(yè)生產(chǎn)、商業(yè)運(yùn)營(yíng)等領(lǐng)域的痛點(diǎn)訴求高度契合。
從圖像數(shù)據(jù)中提取出價(jià)值更難,也更值得做。
格靈深瞳正是這樣一家將技術(shù)創(chuàng)新與行業(yè)理解相結(jié)合的先行者。十多年來(lái),公司始終堅(jiān)持在智慧金融、城市治理等領(lǐng)域精耕細(xì)作,打磨出一整套面向行業(yè)的數(shù)字化解決方案。
這些方案不僅考慮了算法本身的創(chuàng)新,更融入了大量行業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn),形成獨(dú)特的競(jìng)爭(zhēng)壁壘。
這種積淀,讓格靈深瞳在多模態(tài)大模型應(yīng)用落地中先人一步:既能洞悉行業(yè)痛點(diǎn),設(shè)計(jì)好落地路徑,又能調(diào)動(dòng)資源快速迭代。大到頂層的商業(yè)模式設(shè)計(jì),小到一線的模型適配、部署,公司上下形成了一套成熟的方法論。
大模型帶來(lái)的是一個(gè)構(gòu)建行業(yè)AI應(yīng)用的全新技術(shù)范式。多模態(tài)感知、跨域推理、小樣本學(xué)習(xí)等能力的提升,從根本上拓展了AI的想象空間。
但歸根結(jié)底,技術(shù)只是實(shí)現(xiàn)愿景的工具,行業(yè)才是應(yīng)用的土壤。惟有深耕行業(yè),AI才能開(kāi)花結(jié)果。