又一個(gè)國(guó)產(chǎn)AI在外網(wǎng)被刷屏了!
來(lái)感受一下這個(gè)feel:
這個(gè)AI,正是來(lái)自面壁智能最新的模型MiniCPM-o 2.6。
之所以如此火爆,是因?yàn)樗詢H僅8B的體量,在多模態(tài)能力上直接能跟GPT-4o掰手腕!
而且是在iPad上就能跑的那種哦(MiniCPM-o 2.6開(kāi)源地址如下)~
GitHub:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-2_6
從眾多網(wǎng)友們轉(zhuǎn)發(fā)的實(shí)測(cè)體驗(yàn)來(lái)看,效果也是有點(diǎn)意思在身上的。
例如MiniCPM-o 2.6可以直接“盲聽(tīng)”聲音,就知道你在干什么:
翻書(shū)聲、咳嗽聲、倒水聲、敲門聲,聲聲精準(zhǔn)識(shí)別。
不僅是聽(tīng)覺(jué),在看和說(shuō)方面,MiniCPM-o 2.6也是有兩把刷子。
例如你Pad上的MiniCPM-o 2.6,就可以“睜眼”玩兒三仙歸洞,還能記住所有牌被翻過(guò)去前的圖案:
在說(shuō)方面,MiniCPM-o 2.6現(xiàn)在更自然了,不僅能扮演新聞主播、學(xué)生等各種角色,甚至連咖喱味的英文(印度口音)也能整出來(lái)。
當(dāng)然,實(shí)時(shí)打斷也是不在話下:
網(wǎng)友們看罷“Awesome”聲一片,有人還直呼:
超酷的,我的iPad像有了第二個(gè)大腦。
而且不只是效果,面壁智能一道還把看、聽(tīng)、說(shuō)等多模態(tài)能力在各項(xiàng)評(píng)測(cè)榜單的成績(jī)曬了出來(lái)。
從分?jǐn)?shù)上來(lái)看,僅8B的MiniCPM-o 2.6整體能力已經(jīng)可以跟GPT-4o比肩,甚至在很多細(xì)分項(xiàng)目中實(shí)現(xiàn)了超越:
用面壁智能官方的話來(lái)說(shuō),MiniCPM-o 2.6已經(jīng)是開(kāi)源社區(qū)最強(qiáng)語(yǔ)音通用模型、最強(qiáng)端側(cè)視覺(jué)通用模型,以及最強(qiáng)實(shí)時(shí)流式多模態(tài)模型了。
那么在實(shí)際體驗(yàn)過(guò)程中,它是否真的如此絲滑呢?
來(lái)一波實(shí)測(cè)首先,我們來(lái)看下MiniCPM-o 2.6的視力水平到底如何。
在這輪測(cè)試中,我們演示了把原先“這是一張照片”這句話刪除兩個(gè)字,看看MiniCPM-o 2.6到底能不能看出來(lái):
我剛才刪除了哪兩個(gè)字?
MiniCPM-o 2.6精準(zhǔn)地回答出了正確答案:
你剛剛刪除了“照片”兩個(gè)字。
再來(lái),我們給它看一段《黑神話:悟空》中的經(jīng)典片段,問(wèn)它剛剛那個(gè)游戲叫什么:
MiniCPM-o 2.6又答對(duì)了:
你展示的游戲是《黑神話:悟空》。
而之所以能夠做到這么精準(zhǔn),根據(jù)面壁智能的介紹,是因?yàn)镸iniCPM-o 2.6已經(jīng)做到了真看視頻。
它并不是此前的“照片大模型”,即在用戶提問(wèn)之后,AI才會(huì)開(kāi)始對(duì)視頻靜態(tài)圖片抽幀,無(wú)法回答提問(wèn)之前的視頻內(nèi)容。
但真看視頻的大模型就不是這樣,可以持續(xù)對(duì)實(shí)時(shí)視頻和音頻建模,這就更像人類的眼睛了。
在視覺(jué)方面,除了視頻之外,對(duì)于圖片的理解和推理,MiniCPM-o 2.6的能力也是更上一層樓。
比如讓它幫忙指導(dǎo)調(diào)整自行車座椅。
從找到位置,再到挑選合適工具,它都能正確get用戶意圖。
它也能化身學(xué)習(xí)搭子,幫忙解題。
當(dāng)然,以上表現(xiàn)也基于MiniCPM-o 2.6強(qiáng)大的OCR(光學(xué)字符識(shí)別)能力。
官方聲稱,它可以處理任意寬高比,以及高達(dá)180萬(wàn)像素的圖像(例如1344x1344)。
比如直接對(duì)準(zhǔn)iPad,它就能識(shí)別屏幕上的內(nèi)容。
在聽(tīng)方面,我們剛才已經(jīng)展示了很多案例,這里就不再重復(fù)測(cè)試;我們繼續(xù)深入實(shí)測(cè)一波MiniCPM-o 2.6說(shuō)的能力。
例如這樣的:
你幫我用四川話來(lái)教我一下怎么煮火鍋。
嗯,算是川味十足了。
由此可見(jiàn),MiniCPM-o 2.6在交互這塊,是把看、聽(tīng)、說(shuō)等交互模式給拿捏住了。
那么接下來(lái)的問(wèn)題是:
怎么做到的?概括而言,面壁智能一直以來(lái)專注于面向邊端算力場(chǎng)景進(jìn)行極致優(yōu)化,更看重的是單設(shè)備服務(wù)的高效性。
換句話說(shuō),一切都是為了能在手機(jī)、iPad這樣的端側(cè)設(shè)備上更快、更好、更省的跑起來(lái)。
而MiniCPM-o 2.6采用的模型架構(gòu),顯而易見(jiàn)也貫徹了這一核心目標(biāo)。
具體而言,之所以看聽(tīng)說(shuō)全能,關(guān)鍵之一在于下面這個(gè)端到端全模態(tài)架構(gòu),它能將不同類型數(shù)據(jù)(如文本、圖像、音頻)的編碼和解碼模塊通過(guò)端到端方式連接起來(lái)訓(xùn)練。
這種方式使得模型不是孤立地處理每種模態(tài),而是綜合考慮它們之間的關(guān)聯(lián)和交互,充分調(diào)動(dòng)了多模態(tài)知識(shí)。
而且過(guò)程中,完全使用交叉熵(CE)損失(無(wú)輔助/中間損失函數(shù))進(jìn)行端到端訓(xùn)練。
此外,為了適應(yīng)流式輸入輸出(即實(shí)時(shí)、低延遲),不必像傳統(tǒng)那樣需要等所有數(shù)據(jù)都準(zhǔn)備好再處理,面壁團(tuán)隊(duì)又進(jìn)行了兩方面動(dòng)作。
一是上手改造這些離線編/解碼器模塊,將其變成更適于流式輸入/輸出的在線模塊;另一方面,針對(duì)大語(yǔ)言模型的基座,設(shè)計(jì)了時(shí)分復(fù)用的全模態(tài)流式信息處理機(jī)制(Omni-modality Time Division Multiplexer,OTDM)。
尤其是后者,它將同時(shí)并行輸入的多模態(tài)(如視頻流和音頻流)按照時(shí)間順序進(jìn)行拆分和重組,形成一個(gè)個(gè)小的周期性時(shí)間片序列。
如此一來(lái),在一個(gè)時(shí)間片內(nèi),可以先處理一小段視覺(jué)信息(如幾幀圖像),然后處理一小段音頻信息(如幾毫秒的音頻波形),再將它們組合起來(lái),從而避免信息混亂。
接下來(lái),經(jīng)過(guò)OTDM處理后的多模態(tài)信息片段,繼續(xù)按照時(shí)間順序傳遞給全模態(tài)流式骨干網(wǎng)絡(luò)(Omni-Modality Streaming Backbone)。
作為架構(gòu)的核心部分,它被用來(lái)提取不同類型數(shù)據(jù)的特征,類似關(guān)鍵幀、關(guān)鍵音頻等,然后再把它們?nèi)诤掀饋?lái)。
過(guò)程中,大語(yǔ)言模型隱藏層(圖中H0)被用作語(yǔ)音嵌入,主要是為了最終更好地輸出語(yǔ)音內(nèi)容。
當(dāng)然這一目標(biāo)也要靠最后的流式語(yǔ)音解碼器(Streaming Speech Decoder),它將前面接收到的信息轉(zhuǎn)化為語(yǔ)音形式輸出。
而且值得一提的是,面壁團(tuán)隊(duì)還設(shè)置了可配置的聲音方案。
不僅設(shè)計(jì)了新的多模態(tài)系統(tǒng)提示,可直接通過(guò)文字or語(yǔ)音樣例生成或選擇聲音風(fēng)格,還支持端到端聲音克隆和音色創(chuàng)建等高級(jí)能力。
總體來(lái)看,這一架構(gòu)實(shí)現(xiàn)了多模態(tài)流式處理+聲音的自由選擇。也就是說(shuō),無(wú)論面對(duì)哪種數(shù)據(jù),都能實(shí)現(xiàn)高效、低延遲交互,從而成為聽(tīng)說(shuō)看“六邊形戰(zhàn)士”。
事實(shí)上,從更大層面來(lái)說(shuō),作為“以小博大”的老手,本次發(fā)布的MiniCPM-o 2.6僅僅是面壁智能更大計(jì)劃的其中一環(huán)。
作為2018年脫胎于清華NLP實(shí)驗(yàn)室,國(guó)內(nèi)最早進(jìn)行大模型研究的一批人,面壁團(tuán)隊(duì)逐漸聚焦于更高效的端側(cè)模型之路。
面壁智能CEO李大海曾表示:
站在大模型時(shí)代之下,我們都在提的一個(gè)概念便是“AI原生應(yīng)用”;這個(gè)時(shí)代需要的全新操作系統(tǒng),就是AI原生應(yīng)用+AI原生硬件。
而其中的AI原生硬件,其實(shí)很簡(jiǎn)單,就是只要能在端側(cè)運(yùn)行大模型的硬件就是原生硬件。
因此,端側(cè)的大模型就顯得格外重要。
而要想在手機(jī)、PC這樣的端側(cè)絲滑跑起來(lái),大模型無(wú)疑要滿足兩點(diǎn):要小,還要性能高效。
對(duì)此,早在2020年,他們就作為“悟道”大模型首發(fā)主力陣容發(fā)布了全球第一個(gè)20億級(jí)中文開(kāi)源大模型CPM 1,并持續(xù)參與了之后的CPM 2和CPM 3。其中,4B大小的CPM 3就能和GPT-3.5掰手腕了。
可以說(shuō),這一時(shí)期的面壁團(tuán)隊(duì)就已經(jīng)開(kāi)始解決高效問(wèn)題。
后來(lái),當(dāng)走紅全網(wǎng)的“小鋼炮”系列出來(lái),他們也依舊延續(xù)了這一路線
僅2B大小的MiniCPM,在多項(xiàng)主流中英測(cè)評(píng)中均超越“以小博大”的標(biāo)桿之作Mistral-7B,甚至還能越級(jí)比肩Llama2-13B、MPT-30B、Falcon 40B等模型。
而且價(jià)格也打下來(lái)了,1元=1700000 tokens,成本僅為Mistral-Medium百分之一。
這之后,過(guò)去一年里他們又陸續(xù)推出了一系列“以小博大”的產(chǎn)品。
甚至就在剛剛結(jié)束的CES(國(guó)際消費(fèi)電子展)上,面壁小鋼炮MiniCPM系列也亮相了。
一個(gè)是去年9月發(fā)布的MiniCPM 3.0文本模型,雖然只有4B大小,但在代碼、數(shù)學(xué)等能力上可達(dá)到GPT-3.5水平,并且支持無(wú)限長(zhǎng)文本。
另一個(gè)就是去年8月發(fā)布的MiniCPM-V 2.6多模態(tài)模型,僅8B大小,不過(guò)據(jù)當(dāng)時(shí)官方介紹:
它不僅首次將超清OCR識(shí)圖、實(shí)時(shí)視頻理解等能力集成到端側(cè),也首次在端側(cè)達(dá)到單圖、多圖、視頻理解等多模態(tài)核心能力全面超越GPT-4V。
而這一次的MiniCPM-o 2.6,更是加上了多模態(tài)實(shí)時(shí)語(yǔ)音交互能力,離人人可用的端側(cè)模型可謂更近了。
當(dāng)然了,這也極大便利了視障人士友好出行。因?yàn)檎鎸?shí)的出行環(huán)境大多是異常嘈雜的,而能夠部署在移動(dòng)設(shè)備的端側(cè)模型,好處恰在于不依賴網(wǎng)絡(luò)就能本地運(yùn)行。(就像下面這個(gè)識(shí)別紅綠燈的例子)
由于能在類似弱網(wǎng)斷網(wǎng)場(chǎng)景中依舊正常工作,面壁智能的端側(cè)模型擁有了更多應(yīng)用場(chǎng)景,也適合部署在智能眼鏡等頭戴式設(shè)備上。
更重要的是,面壁智能還將這些端側(cè)模型完全開(kāi)源了。
有一說(shuō)一,回顧過(guò)去一年大模型的發(fā)展,國(guó)產(chǎn)開(kāi)源力量們無(wú)疑表現(xiàn)亮眼。
這其中,從大眾知名度和開(kāi)源情況來(lái)看,DeepSeek、阿里Qwen,以及本次提到的面壁智能,隱隱已有“中國(guó)大模型開(kāi)源三劍客”之勢(shì)。
先說(shuō)近的,橫空出世的DeepSeek-v3,以1/11算力訓(xùn)練出超過(guò)Llama 3的開(kāi)源模型,震撼了整個(gè)AI圈。
而阿里Qwen,更是隔一兩個(gè)月就會(huì)刷新一次能力邊界。
拿去年來(lái)說(shuō),6月發(fā)布的Qwen2全面超越開(kāi)源標(biāo)桿Llama 3,上線僅1天下載量就超過(guò)3萬(wàn)次;8月發(fā)布的Qwen2-VL,多模態(tài)能力甚至超過(guò)GPT-4o等閉源模型……
再到面壁智能,其小鋼炮MiniCPM系列廣受開(kāi)源社區(qū)喜愛(ài),是2024年Hugging Face下載量最高的國(guó)產(chǎn)模型之一。
而且一直以來(lái),面壁智能在開(kāi)源這件事上比較活躍,很多項(xiàng)目也受到了社區(qū)不少好評(píng)。
目前,MiniCPM-o 2.6已在GitHub和Hugging Face開(kāi)源,還有在線demo免費(fèi)可玩。