AI未來指北特約作者 郝博陽
編輯 鄭可君
在科幻電影《Her》中,主角Theodore愛上了一個能看能聽、富有同理心的AI助手Samantha。
這個故事上映時看似遙不可及,但在過去的十年里,AI領域的進展讓這個未來逐漸清晰。2024年5月,OpenAI的GPT-4o讓我們看到了一個能實現(xiàn)類似Samantha般自然交互的AI系統(tǒng)它能實時理解視頻、識別語音,并以自然的方式回應。然而,這樣的系統(tǒng)被鎖在云端的數(shù)據(jù)中心里,需要強大的算力支持和穩(wěn)定的網絡連接。
面壁智能最新發(fā)布的MiniCPM-o 2.6,正在試圖改變這一現(xiàn)狀。這個只有8B參數(shù)的模型相當于GPT-4o尺寸的一小部分成功將類似能力搬到了端側設備上。更令人驚訝的是,在某些特定場景下,這個"小模型"的表現(xiàn)甚至超越了它的云端前輩,比如GPT-4o和Claude 3.5 Sonnet。
小身材,大能量如果說Deepseek V3讓人叫絕的是用極低的訓練成本,訓練出了非常強大的模型,那MiniCPM-o 2.6就是用很小的參數(shù),在視覺理解和語音類任務方面獲得了出色的效果,在其他領域也沒有什么短板。
視覺理解方面,它在MMVet基準測試中的排名僅次于GPT-4。在OpenCompass綜合評估中得分70.2,超過了同期的一些主流大模型。
語音處理能力也相當扎實,MiniCPM-o 2.6的LibriSpeech測試成績98.3分,Speech Llama Questions得分71.7分,AudioArena評測獲得1200分,多項指標接近頂尖水平,僅次于GPT-4o。
在各類具體任務上,包括TextVQA(85.8分)、ChartQA、DocVQA等細分場景,以及跨語言理解如英譯中等方向,都展現(xiàn)出了不錯的基礎能力?紤]到模型規(guī)模,這些表現(xiàn)算是相當不錯了。
真正視頻理解要讓AI一直在觀察"大多數(shù)聲稱支持視頻理解的AI其實都不夠格,"面壁智能的一位研究員在展示系統(tǒng)時告訴科技新聞,"它們的所謂'視頻理解',實際上就是在用戶提問后抓取幾個關鍵幀來分析。
這就像看電影時一直閉著眼睛,只在別人問問題時才睜開眼看一眼。你覺得這樣能真正理解劇情嗎?
這就是當前很多視頻理解AI的痛點。
因為這些視頻理解模型實際上都是"照片模型"的擴展。它們采用"詢問驅動"的方式工作:等待用戶提問,然后從視頻中截取幾個關鍵幀來分析。
這種方法有幾個致命的缺陷:
首先,它們無法捕捉視頻中的動態(tài)信息。有些動作的變化它可能無法理解。
其次,它們缺乏對前文的感知能力。在一個懸疑片段中,早期場景中的細微線索可能是理解后續(xù)情節(jié)的關鍵。但這些模型只能看到用戶提問時刻的畫面,完全錯過了重要的上下文信息。
永遠睜著眼睛的觀察者而這次面壁智能的新模型采用了完全不同的方法。MiniCPM-o 2.6被設計成一個"永遠睜著眼睛的觀察者"它會持續(xù)處理輸入的視頻流,不斷更新自己對場景的理解,即使在沒有用戶提問的時候也保持著持續(xù)觀察。
這種設計在實際應用中展現(xiàn)出顯著優(yōu)勢。在一個測試場景中,研究人員讓模型觀看一段"三仙歸洞"魔術視頻。傳統(tǒng)的視頻AI只能看到最終的結果三個杯子和一個不知所蹤的小球。而MiniCPM-o 2.6能夠準確追蹤整個過程:魔術師的手法、小球的運動軌跡、以及關鍵的誤導動作。
在這種持續(xù)的“流式”視頻理解下。模型不僅能看到“發(fā)生了什么”,還能更好的理解“為什么”和“怎么做到的”。
這種卓越表現(xiàn)一方面來自于其端到端的流式處理架構。傳統(tǒng)語音模型通常需要ASR(語音識別)、LLM(語言理解)、TTS(語音合成)等多個獨立模塊協(xié)同工作,而MiniCPM-o通過統(tǒng)一的流式骨干網絡,將這些步驟融為一體。這不僅降低了延遲,提高了效率,更重要的是能實現(xiàn)更自然的語音交互體驗,突破了以往模塊化方案的瓶頸。
另一方面就要靠MiniCPM-o 2.6的另一個技術創(chuàng)新了。
端到端的稠密化信息處理實現(xiàn)這種持續(xù)性的視頻理解并非易事,面壁團隊開發(fā)了一套創(chuàng)新的流式處理機制,讓MiniCPM-o 2.6模型能夠在有限的計算資源下持續(xù)處理視頻流。
它的核心絕招就是“稠密化”也就是極致的壓縮和細小的切片。
這個系統(tǒng)的核心是一個名為OTDM(Omni-modality Time Division Multiplexer)的組件。它把一般模型中離線的模態(tài)編碼器/解碼器改為在線版本,以適應流式輸入/輸出。
如果我們不對模型實時接收到的信息做分組,視頻幀聲音信號和聲音信號的不斷涌入會沖垮模型本身的上下文限制,模型會在這樣的信息洪流中"崩潰"。而只截取其中的極少幀又會出現(xiàn)視頻理解的障礙。
OTDM采用了一種優(yōu)雅的解決方案:它將音視頻的時間切成1s左右的片段,而且在每個片段中只處理最重要的信息。
這既能保證信息的相對完整性,又不至于讓響應時間過長。比如如果模型沒切片,那一個十秒的視頻,它至少得處理五秒才能開始回答。
除了切片外,通過精心設計的壓縮算法,模型能夠用極其緊湊的方式存儲視頻信息。在處理180萬像素的高清畫面時,它只需要生成640個視覺token,這比傳統(tǒng)方法節(jié)省了75%的計算資源。這直接提升了推理速度、首令牌延遲、內存使用及功耗表現(xiàn)。還能讓模型記得更久,包含更多信息點。
在極致的壓縮和對時間的細致切片之下,MiniCPM-o 2.6才能做到持續(xù)關注視頻流,建立起完整的情境理解。也因此能回答問題時才能聯(lián)系到之前看到的所有細節(jié)。
在面壁給出的另外一個例子里,MiniCPM-o 2.6和開發(fā)人員玩了一個記憶牌游戲。在大概15秒左右的游戲過程中,模型依然能記得最開始牌擺放的位置。
這一系列模型上的革新,使得在實時流式視頻理解能力的代表榜單 StreamingBench上,MiniCPM-o 2.6 性能足以比肩GPT-4o、Claude-3.5-Sonnet,超過其他開源端側模型。
這種能力在實際應用中有非常重要的意義。比如在自動駕駛系統(tǒng)里,它需要不僅要看到當前的路況,還要記得前幾秒發(fā)生的一切;或者一個安保系統(tǒng),它需要理解一個可疑行為的整個發(fā)展過程,而不是孤立的片段。
拓展語音理解和生成的邊界除了視頻理解方面的加強,MiniCPM-o 2.6在聽和說上也有一些拓展,比如加入了對環(huán)境音的理解。
在測試中,它能準確識別GPT-4o都難以捕捉的復雜音頻環(huán)境:嘈雜咖啡廳里的多人對話、街道上的環(huán)境聲、甚至遠處的背景音樂。這些動作與場景的聲音,有時候對于理解場景和動作本身也非常關鍵。另外,對于這些背景音的辨別也能讓模型在識別語音時有更好的抗干擾能力。
另一方面,MiniCPM-o 2.6和GPT-4o一樣,能夠隨時被打斷,且具備情感與語氣表達。你還可以控制語音生成的音色和風格,在展示階段,工作人員給我們展示了一段MiniCPM-o 2.6模仿特朗普的演示,語調確實很準確。而且作為中國模型,它也能熟練掌握部分方言,比如四川話。
對于端側AI,也許多模態(tài)能力更重要在當下大模型公司更追求強化學習帶來的復雜推理能力時,面壁科技選擇了發(fā)布新的多模態(tài)模型,提升了其實時和長效的理解能力,這看似有點沒跟上時代潮流。
但端側設備最大的優(yōu)勢就是貼近用戶的真實場景,它能第一時間獲取最豐富的環(huán)境信息。如果不能實時理解這些多模態(tài)信息,再強大的推理也只能紙上談兵。
想象一個滴滴司機的場景,疲憊的司機在晚上11點正在送最后一位乘客,傳統(tǒng)的疲勞檢測只覆蓋眼動和點頭情況,但真實世界遠比這要復雜:司機說話聲音越來越低,空調聲音蓋過了導航,路況不好時方向盤握得更緊...這些細節(jié)都是疲勞駕駛的預警。一個真正有用的AI助手必須能實時理解這些多模態(tài)信息,在危險發(fā)生前就做出預警。
因為算力限制,端側的核心可能不是能回答多少復雜問題,做出多少步推理,而是能否準確理解真實場景是否能及時做出恰當響應。
在Apple Intelligence頻繁跳票,多模態(tài)功能尚未上線的年末,OpenAI和谷歌接連推出了GPT-4V正式版和Project Astra。這兩個產品的核心都瞄準了多模態(tài)理解。
而這可能才是端側AI的真正痛點。
解決了它,也許我們才邁出了AI超越Chatbot,進入AI硬件的第一步。