展會信息港展會大全

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物
來源:互聯(lián)網(wǎng)   發(fā)布日期:2025-01-03 08:05:05   瀏覽:348次  

導(dǎo)讀:智東西(公眾號:zhidxcom)作者 | 陳駿達(dá)編輯 | 漠影最近幾天,支付寶App中悄然出現(xiàn)了一項新的AI應(yīng)用“探一下”。在“掃一掃”頁面下方切換至“探一下”就能體驗。與傳統(tǒng)的識物、搜題等視覺搜索應(yīng)用不同,“探一下”的核心亮點為探索。識圖辨物只是開始,在此基礎(chǔ)上,有探知識、探靈感、探文本等能力板塊。從視覺搜索到智能推薦信息,“探一下”可成為一本隨身的“視覺百科全 ......

智東西(公眾號:zhidxcom)

作者 | 陳駿達(dá)

編輯 | 漠影

最近幾天,支付寶App中悄然出現(xiàn)了一項新的AI應(yīng)用“探一下”。在“掃一掃”頁面下方切換至“探一下”就能體驗。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

與傳統(tǒng)的識物、搜題等視覺搜索應(yīng)用不同,“探一下”的核心亮點為探索。識圖辨物只是開始,在此基礎(chǔ)上,有探知識、探靈感、探文本等能力板塊。

從視覺搜索到智能推薦信息,“探一下”可成為一本隨身的“視覺百科全書”。逛展時,打開“探一下”對準(zhǔn)畫作,背后的故事、歷史背景、藝術(shù)風(fēng)格都一覽無余。踏青時,打開“探一下”對準(zhǔn)花朵,不僅能識別出名稱、科屬,還有文化、園藝的相關(guān)知識。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

“探一下”也可以識別同款商品、給出藥物使用指南,或是翻譯外文菜單,并鏈接到支付寶豐富的商業(yè)生態(tài),提供用車、醫(yī)療等服務(wù),使用場景很廣泛。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

當(dāng)切換至探靈感功能時,它可以根據(jù)場景靈活配文,可幽默、可治愈,在寵物、辦公等場景,還會有“讀心”、“卷王”等定制濾鏡,適合想曬圖但不知道怎么寫文案的人。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

這些實用、有趣的功能背后,其實是視覺搜索產(chǎn)品在GenAI(生成式AI)時代范式轉(zhuǎn)變的縮影,告別過去的傳統(tǒng)判別式方案,多模態(tài)大模型驅(qū)動的AI視覺搜索方案正逐漸走向規(guī)模化應(yīng)用。

在海外,Google Lens這一爆款視覺搜索產(chǎn)品,已憑借GenAI成為谷歌增長最快的查詢類型之一,每月視覺搜索調(diào)用量超200億次。依托于掃一掃的用戶群體、支付寶的龐大商業(yè)生態(tài)圈以及螞蟻的技術(shù)積累,“探一下”會否成為國內(nèi)對標(biāo)乃至超越Google Lens的現(xiàn)象級產(chǎn)品呢?

一、視覺搜索賽道火熱,理解分析能力亟待突破

過去20多年中,傳統(tǒng)的文字搜索引擎已成為了搜索的標(biāo)準(zhǔn)形態(tài)。不過近幾年來,原本作為文字搜索補(bǔ)充的視覺搜索已經(jīng)逐漸走到臺前。2022年,谷歌開發(fā)的視覺搜索應(yīng)用Google Lens每月執(zhí)行的視覺搜索任務(wù)已超過120億次,2024年這一數(shù)字已達(dá)200億次,并持續(xù)快速增長。

從用戶角度來看,視覺搜索能提供超越文字限制的直觀搜索體驗,還能幫助用戶發(fā)現(xiàn)更多相關(guān)信息,從而激發(fā)新的創(chuàng)意與靈感。在傳統(tǒng)文字搜索增長進(jìn)入穩(wěn)定期后,視覺成為眾多互聯(lián)網(wǎng)科技企業(yè)發(fā)力的重點之一。

從商業(yè)價值的角度來看,視覺搜索能在電商、社交媒體等領(lǐng)域提供全新的體驗,成為連接用戶與商業(yè)服務(wù)的重要橋梁,催生新的商業(yè)模式與價值。國內(nèi)與國際的淘寶、亞馬遜等電商平臺紛紛推出相關(guān)服務(wù),正是出于這一考量。

然而,在中國,現(xiàn)象級的視覺搜索產(chǎn)品尚未出現(xiàn)。許多廠商的視覺搜索基于AI1.0時代的判別式基礎(chǔ)視覺算法,依托大量數(shù)據(jù),專注于某一垂直領(lǐng)域,如搜題、識花、購物等,未能實現(xiàn)破圈。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

即便是具備“識萬物”能力的產(chǎn)品,也大多停留在了“識你所見”的層面,并且在復(fù)雜場景上的表現(xiàn)并不理想。當(dāng)用戶需要了解圖片背后的更多信息時,仍需鏈接到搜索引擎的結(jié)果,理解分析能力成為上一代視覺搜索的明顯短板,亟待突破。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

二、從判別到生成,GenAI重新定義視覺搜索

互聯(lián)網(wǎng)誕生以來,搜索的形態(tài)就處于不斷流變的過程中。以Google為代表的傳統(tǒng)搜索通過匹配關(guān)鍵詞來獲取信息,其核心是基于文字的資訊檢索。

隨著深度學(xué)習(xí)浪潮的開啟,視覺搜索應(yīng)運而生,以Google Lens早期版本為代表的同類產(chǎn)品以圖像識別技術(shù)為核心,匹配數(shù)據(jù)庫中的物體、場景或文字。

在GenAI技術(shù)的洗禮之下,傳統(tǒng)搜索已往生成式搜索靠攏,顯然,視覺搜索也需要順應(yīng)這一趨勢。用戶已經(jīng)不再滿足于僅僅獲取信息,而是期待更豐富、更智能、更個性化的體驗與解讀。

視覺搜索需要從單純的信息檢索工具,進(jìn)化為能夠理解用戶意圖、提供個性化內(nèi)容、激發(fā)創(chuàng)意靈感、連接服務(wù)生態(tài)的下一代生成式視覺搜索。

GenAI對視覺搜索的變革性意義已經(jīng)成為共識。

去年,谷歌旗下的視覺搜索產(chǎn)品已與大模型進(jìn)行了深度融合,可在識別畫面信息之外回答用戶的問題,內(nèi)容由模型進(jìn)行整合并輸出。Google Lens還進(jìn)一步支持了視頻提問、語音提問等功能,同樣也可為用戶提供豐富、個性化的交互體驗。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

蘋果也提升了對視覺智能的重視。新款iPhone的“相機(jī)控制”按鈕能一鍵啟用視覺智能,成為Apple Intelligence的視覺入口,支持拍餐廳看評價、拍傳單添加日程、拍小狗看品種、拍商品買同款等新穎的交互體驗。

支付寶近期推出“探一下”,也正是由于他們把握住了生成式視覺搜索這一視覺搜索領(lǐng)域的新趨勢!疤揭幌隆睒I(yè)務(wù)負(fù)責(zé)人蔡偉(David Cai)曾在谷歌工作,從零開始深度參與了Google Lens等視覺搜索項目,他認(rèn)為這一代基于多模態(tài)大模型的視覺搜索技術(shù)變遷有兩大趨勢,一是由搜索走向生成,二是由文本輸入走向多模態(tài)、全模態(tài)輸入。

據(jù)了解,“探一下”的視覺原生解決方案將多模態(tài)大模型能力同mRAG(多模態(tài)檢索增強(qiáng)生成)、基礎(chǔ)視覺算法、Agent能力相結(jié)合,以視覺為中心,提供了以探索為核心亮點,有用、有趣的用戶體驗。

為穩(wěn)住識別等“求知”類需求的基本盤,并進(jìn)行更具深度和廣度的分析解讀,“探一下”采用多模態(tài)大模型全圖理解+open-set多主體檢測的技術(shù)鏈路,能夠識別特定場景中的多個主體,并將識別的結(jié)果聚合到一起,從而實現(xiàn)意圖識別的快響應(yīng)、高精度,并借助大模型理解力和知識力,進(jìn)一步分析信息、理解信息、提供信息。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

在精細(xì)化識別的基礎(chǔ)上,“探一下”還可提供趣味性、啟發(fā)性的內(nèi)容。結(jié)合預(yù)訓(xùn)練好的“讀心、幽默、治愈”等文本模版,“探靈感”功能可以即時生成對應(yīng)“類人”風(fēng)格的文本。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

響應(yīng)速度是不少AI產(chǎn)品落地時的痛點。蔡偉介紹,“探一下”聯(lián)合螞蟻百靈多模態(tài)大模型團(tuán)隊,針對大模型進(jìn)行了輕量化推理加速,并采用了從視覺初定位,到粗意圖,再到精細(xì)化識別的Coarse-to-Fine機(jī)制,縮短了結(jié)果輸出的耗時,為用戶提供了更為即時的體驗。

準(zhǔn)確性則是所有AI產(chǎn)品真正發(fā)揮實際效用的關(guān)鍵。探一下在生成回答時依靠不同的數(shù)據(jù)源,利用RAG技術(shù)綜合信息進(jìn)行交叉驗證,還在最終輸出時注明來源,讓結(jié)果更可靠,用戶更信任。

同時,“探一下”在隱私與安全上保持了與支付寶金融級產(chǎn)品一樣的安全合規(guī)標(biāo)準(zhǔn),對圖片類型、數(shù)據(jù)存儲位置(用戶或服務(wù)器)都進(jìn)行了細(xì)致嚴(yán)格的限定。

三、鏈接支付寶生態(tài),“探一下”探萬物的可能性

“探一下”目前的主要入口是支付寶的掃一掃功能,這從一定程度上反映了螞蟻對這一交互形式的信心與決心。“我們認(rèn)為生成式AI帶來的搜索變革,其實是一個全新的交互形態(tài),視覺不僅僅是文本的一個附庸,而是能承載獨立的產(chǎn)品入口。”

蔡偉進(jìn)一步介紹,掃一掃在過去已積累了億萬級的用戶,新應(yīng)用“探一下”能利用這一優(yōu)勢,降低培養(yǎng)用戶習(xí)慣的成本。如果探一下能為用戶創(chuàng)造足夠多的價值,或許有希望引發(fā)如上一輪“掃一掃”般的新一輪用戶行為升級。

未來,“探一下”仍然會專注于大模型具有優(yōu)勢,而前一代技術(shù)無法實現(xiàn)的場景。螞蟻并不是一家搜索起家的企業(yè),這讓他們得以輕裝上陣,更自由地探索“探一下”發(fā)展的可能性。

基于支付寶豐富的服務(wù)供給,“探一下”未來可能會接入小程序、智能體和其他潛在的用戶交互形式。今年螞蟻集團(tuán)接連推出了AI生活管家“支小寶”、AI金融管家“螞小財”和AI健康管家。作為視覺元素交互入口,“探一下”也有可能成為鏈接三大管家服務(wù)的重要入口。比如,在健康管家中,“探一下”可以識別藥物,并且進(jìn)一步鏈接用藥指南、報告解讀、醫(yī)生推薦、智能導(dǎo)診等健康服務(wù)。

支付寶長眼睛了!打造新一代視覺搜索,AI幫你探索萬物

在三大AI管家之外,作為獨立的視覺原生入口,“探一下”還能識別汽車等物品及場景,鏈接到支付寶的“車生活”服務(wù),提供看車、充電等生活服務(wù),具備鏈接商業(yè)世界的想象力空間。

“探一下”也可落地到更豐富的應(yīng)用場景,如旅游、戶外、親子等場景,不斷擴(kuò)大內(nèi)容生態(tài);也能基于支付寶數(shù)字公益方面的經(jīng)驗,發(fā)揮更大的社會價值,比如,探索無障礙輔助等領(lǐng)域,更好服務(wù)視障人群。

“探一下”團(tuán)隊在測試與發(fā)布過程中發(fā)現(xiàn)了不少意外之喜:如用戶很喜歡用它來識別昆蟲;部分用戶還用“探一下”取代相機(jī),作為內(nèi)容記錄與分享的新方式。作為一款C端的通用AI視覺搜索產(chǎn)品,“探一下”未來會針對用戶需求不斷進(jìn)行迭代,持續(xù)優(yōu)化體驗。

此外,新一代視覺搜索也帶來了智能硬件的發(fā)展想象。在部分場景中,“Always-on”的智能眼鏡等硬件能提供比手機(jī)更好的用戶體驗,蔡偉稱“探一下”也在思考與智能硬件的融合模式。

結(jié)語:“探一下”或?qū)⒁I(lǐng)下一代AI視覺搜索趨勢

搜索是互聯(lián)網(wǎng)的組織層,串聯(lián)起用戶、信息、商業(yè)、服務(wù)等諸多要素,是信息、智能世界的重要入口。谷歌定義了搜索目前的模樣,但他們起初或許并不知道搜索會長成它現(xiàn)在的樣子。

在生成式AI時代,視覺搜索這個動作,將極大豐富搜索的樣式,搜索不再是從已知中找答案,而是基于多模態(tài)大模型的視覺理解與創(chuàng)作能力,提供更智能、更豐富、更具交互性的服務(wù)體驗。

螞蟻集團(tuán)入局AI視覺搜索,正是對其AI First戰(zhàn)略的進(jìn)一步加速。2024年,螞蟻集團(tuán)發(fā)布三大AI管家,設(shè)立強(qiáng)化學(xué)習(xí)實驗室,AI專利、AI論文數(shù)量猛增。而支付寶的“探一下”也正在探索下一代AI視覺搜索新范式,煥新傳統(tǒng)的搜索產(chǎn)品,也有希望讓AI像掃碼支付一樣便利每個人的生活不止有大腦能對話、有手腳能辦事,更有眼睛能探索身邊世界。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港