前不久,火山引擎利用3DGS技術把山西高平二郎廟和北京正乙祠兩座珍貴的歷史戲臺建筑“搬進”了虛擬直播間,其應用于抖音戲曲直播的虛實融合效果得到了京劇專業(yè)人士的贊許。讓技術有溫度,火山引擎這些年一直堅持用新技術做文化傳承。
2024年被視為AI應用元年,生成式AI迎來了爆發(fā)式增長。它不僅改變了音視頻的生產與交互方式,也開始快速滲透進千行百業(yè),但也在應用落地進程中對背后的音視頻技術底座、多媒體處理架構、甚至芯片能力提出更高要求;而海量智能終端設備對大模型的調用需求,也對邊緣智能和云邊端協(xié)同發(fā)出更高挑戰(zhàn)。IDC報告認為,生成式AI的IaaS市場去年實現爆發(fā)式增長,在AI與云有雙向積累的公司獲得了先發(fā)優(yōu)勢。
12月19日,智源研究院發(fā)布最新一期大模型綜合及專項評測結果。在覆蓋國內外100余個開源和商業(yè)閉源大模型的評測中,豆包通用模型pro獲得大語言模型主觀評測最高分;在多模態(tài)模型評測中,豆包視覺理解模型排名視覺語言模型第二,成績僅次于GPT-4o;豆包文生圖模型、豆包視頻生成模型(即夢P2.0 pro)也分別在相應測試中獲得全球第二。
在一眾“大廠”云+AI的布局中,火山引擎正以領先的技術創(chuàng)新切中用戶需求,在行業(yè)落地中找準自身的生態(tài)位。為了進一步拓寬行業(yè)覆蓋,火山引擎一年來在視頻云、邊緣云等領域做了諸多技術創(chuàng)新,并結合大模型與企業(yè)客戶一起驅動業(yè)務創(chuàng)新。
大模型深入音視頻
今年7月,抖音首部AIGC短劇《三星堆:未來啟示錄》上線,收獲了驚人的1.4億次播放量。這部有專業(yè)影視制作公司合作的劇作呈現出大片的既視感。它向業(yè)界交出一份答卷:生成式AI是創(chuàng)作背后的輔助工具,思想與情感的傳達仍是由人在主導,生成式AI將是審美加分項。從文生文、文生圖,到文生視頻,這些都已成為現實生產力。
眼下,生成式AI、多模態(tài)大模型、全景直播、3D生成等技術將數字視頻帶入AI視頻時代,從追求視頻的高清、實時,到追求更智能、更具交互性。由此也帶來兩個嚴峻的考驗:一是AIGC方式下的視頻數據量指數級增長對技術底座提出更高要求,比如視頻數據以20倍的速度在增長,使得背后的計算成本與效率問題凸顯;二是多模態(tài)媒體處理需求的增長對音視頻處理全鏈路提出了新的要求,涉及視頻的生產、交互與消費各環(huán)節(jié)。
針對前者,火山引擎去年至今集中做了一些底層自研探索,比如在抖音里使用自研視頻轉碼芯片,可在同等視頻壓縮效率下獲得數十倍的成本節(jié)約;它還基于深度學習的圖像視頻壓縮技術,對自研的編解碼技術BVC進行持續(xù)優(yōu)化;去年就已經推出自研的多媒體處理開源框架BMF,今年升級后支撐了諸如豆包PixelDance等視頻生成大模型的上線與調優(yōu)。
針對后者,即位于上面的音視頻應用,火山引擎視頻云主要是將豆包大模型及平臺AI能力去和音視頻的全鏈路處理進行結合,使得內容生產更智能、人與AI交互更擬人、虛實融合更沉浸。
設想一場演講直播如何同時滿足不同語種收看者的需求?畫面中還是演講者本人,他可以實時出現在中文、英語或其他語種的頻道中,供觀眾任意進行多語言切換。技術針對演講內容實時進行跨語言翻譯輸出,再利用AI機器學習高度還原演講者的聲音特點和說話風格,并讓后臺算法根據所輸出語言的不同對虛擬人口型進行差異化匹配,是不是會立刻產生一種身臨其境的聆聽效果?這就是火山引擎已經實施的“聲影同傳方案”,適用于同傳直播場景的內容生產。
在本月18日舉行的火山引擎冬季FORCE原動力大會上,在中文直播的同時,同聲的英語頻道采用的就是跨語言同聲復刻方案。它以“跨語言直播”的方式,用AI“擬聲”出主論壇所有演講嘉賓的聲音特點和口型,實時呈現英語演講。
生產端的創(chuàng)新還體現在“多模態(tài)視頻理解與生成方案”。它整合了語音識別、文字識別、自然語言處理、視頻理解和視頻生成等多種模態(tài)模型的能力,可適用于體育賽事直播、教育、節(jié)目劇集等多種場景:比如對課程知識點的精準提煉、短時間內針對一部劇集制作批量化的引流短視頻、在一場球賽直播中快速制作進球回放視頻等。
在音視頻交互端,對話式AI的技術完善讓大模型享有更寬廣的應用場景,與硬件融合正成為重要趨勢。同樣在本次火山引擎冬季FORCE原動力大會上,火山引擎視頻云與lOT芯片領域的領先企業(yè)樂鑫科技正式聯(lián)合發(fā)布硬件對話式AI解決方案,提供了功能全面、即插即用的語音交互模組,旨在為硬件設備的智能化升級加速。目前,這一聯(lián)合解決方案已與Toycity、Folotoy、魂伴科技等多領域硬件品牌方展開合作,共同推動智能硬件行業(yè)的發(fā)展。比如,魂伴科技(Cyber Partner)在做的就是融合AI軟硬件技術賦予IP角色破次元能力,打造“有趣、有料、有AI”的產品,讓每個人都能擁有自己的賽博伙伴。
而在音視頻消費端,火山引擎聯(lián)合豆包大模型推出了3D生成模型Beaver3D。與傳統(tǒng)手工3D建模相比,3D生成模型在生產效率上有明顯優(yōu)勢,它針對多模態(tài)的圖、文建模,1分鐘就可以生成高保真高質量的3D資產。該模型與火山引擎數字孿生平臺veOmniverse結合使用,可以高效完成智能訓練、數據合成和數字資產制作。
為提升3D數字形象在實際場景中的虛實無縫融合,火山引擎還推出了大場景重建方案,將3DGS渲染技術與自研大場景建模技術相結合。上述北京和山西的兩座古戲臺在這一技術加持下,在抖音戲曲直播的虛擬布景中重新散發(fā)出流光溢彩的視覺效果。而這兩座戲臺能成為直播間虛擬背景,本身也應用了3D生成模型方案。
另外在傳統(tǒng)視頻交互中,觀眾不能自由選擇拍攝機位與觀看視角。但基于3DGS重建的6DoF直播方案,可以讓觀眾在播放端高自由度地觀看多角度的3D直播內容,實現高質量、低延遲、360度看直播。抖音VR直播目前已能讓普通用戶采用一部手機或者相機即可開播,并能在播放端體驗到一定范圍內的多視角3D直播內容。
讓邊緣AI應用落地更容易
AI技術帶來了前所未有的極致交互體驗,同時也對硬件融合以及技術底座支撐提出了更高的要求,AI 2.0時代已經到來。
現在,一部手機不僅是高清視頻、VR直播的生產工具,還可以成為AI智能體的一種“物理延伸”。隨著AI PC、AI手機、AI玩具以及智能眼鏡、耳機等可穿戴設備的普及,這些設備與大模型的結合衍生出豐富的端智能應用場景。除了個人消費場景之外,端智能在工業(yè)生產、能源、機器人等ToB基礎行業(yè)的應用更早、也更深刻。邊緣智能的需求也逐步演變升級。
在與眾多客戶深入合作的過程中,火山引擎邊緣智能也洞察到新時代的技術挑戰(zhàn)。比如,端智能在落地過程的問題和挑戰(zhàn)可以總結歸納為四個“多”:“多平臺集成”、“多SDK適配”、“多重設備身份管理”、“多種模型協(xié)同”。
其次,從端側發(fā)起的AI服務調用越來越多,但整體上受限于功耗、成本等原因,端側設備的算力遠落后于中心計算。這就迫使業(yè)界將模型“小型化”,但這意味著模型通用性的減弱。
面向AI 2.0時代,如何突破限制,加速大模型落地?火山引擎邊緣智能給出了自己的答案。
首先,針對端智能面臨的四個“多”問題,推出了三個“一”的解決方案端側 OneSDK、OneCredential 和 OneStop 一站式服務。具體來說,OneSDK,即端側僅需集成一個SDK,即可一站式解決在線升級(OTA)、日志記錄、遠程登入、設備管理等設備運維需求,以及設備密鑰、設備證書等設備安全需求,還能滿足多模型和多智能體調用的設備智能需求。同時,提供硬件抽象層(HAL)接口,以便在 RTOS、其他嵌入式操作系統(tǒng),甚至是無操作系統(tǒng)的設備上輕松遷移SDK。OneCredential支持云上多平臺間的身份互認和權限穿透,使得設備端可以共享一套密鑰和證書,在確保安全性的同時,降低了成本并提升了性能。OneStop是通過深度融合端云技術打造的一站式端智能體方案,能大幅降低端側智能體的開發(fā)與接入門檻。
在通過這一套OneSDK端智能一站式方案來統(tǒng)一端側標準之后,以智能決策器決策在本地完成推理,還是將推理請求智能路由至邊或云的算力中。對于推理請求需要轉發(fā)到設備之外的場景,火山引擎邊緣大模型網關提供了四大能力,幫助客戶加速云邊大腦的訪問:一是網關的適配性,提供與OpenAI完全一致的接口,并屏蔽接口差異,幫助開發(fā)者更容易在模型間遷移;二是海量的邊緣云節(jié)點,并通過流量調度,提供端側就近接入大模型;三是通過各類緩存、邊緣推理等方式進行查詢加速;四是在穩(wěn)定性上,通過多模型廠商間的故障遷移以及錯誤重試,提升請求的魯棒性。
此外,產業(yè)未來的一個發(fā)展趨勢是,從基礎模型向多樣化智能體轉變,即“千模走向萬體”;A模型的持續(xù)迭代推動了智能體的發(fā)展,同時市場正專注于特定領域智能體的開發(fā),帶動了應用、平臺和基礎設施的匹配發(fā)展。在這一進程中,邊緣原生智能體將扮演關鍵角色通過理解設備能力,結合用戶的輸入進而實現自主感知或操控設備,并在端-邊-云之間進行靈活調度,甚至實現多智能體協(xié)同完成更為復雜的任務。
基于這一構想,火山引擎邊緣智能聯(lián)動扣子,通過定制插件和工作流讓智能體具備感知、操作設備的能力,目前已在智能數字工廠、智慧園區(qū)落地。管理者只需通過設備,即可實時查詢工廠或園區(qū)情況、掌握各類數據,進一步提高管理水平。
質檢智能體也在解決傳統(tǒng)質檢中無法反映中間過程質量的難點。火山引擎邊緣智能利用多模態(tài)大模型,以工廠具體制定的SOP(標準化作業(yè)程序)為輸入,智能監(jiān)督整個工序過程是否符合規(guī)范,最終提高了質檢的全面性和準確性。
實現高智能水平的多智能體協(xié)同調度任務,還有賴于高效可靠的云邊端網絡通信。火山引擎利用分布在全球2500多個邊緣云節(jié)點,建設了全球分布式云網基礎設施,面向端-邊互聯(lián)、邊-邊互聯(lián)以及邊-云場景提供從1ms到40ms時延的廣域網絡接入,支持智能應用就近上云。此外,它的分布式邊緣云異構算力解決方案可以為用戶就近提供多形態(tài)異構算力,具備小型化與輕量化的特點,支持算力、服務混合部署,集群功能按需調配,最大化利用資源。
與此同時,AI技術應用發(fā)展雖快卻并不夠成熟,在傳統(tǒng)安全威脅之外,還面臨諸如幻覺攻擊、對抗性攻擊等新型安全攻擊和挑戰(zhàn)。尤其在智能體連接物理世界的過程中,這種威脅也將傳導至實體。
對此,火山引擎邊緣智能在傳統(tǒng)的安全防護措施,如 DDoS 防護、WAF 和頻次控制的基礎上,增添了針對 AI 2.0 時代的邊緣安全防護功能。具體來說,在輸入層對輸入的提示詞進行安全性檢測,拒絕任何不安全或不合規(guī)的提示詞請求,同時,通過提示詞擾動,降低提示詞的安全風險。另外,通過在系統(tǒng)提示詞中有針對地添加防御性的描述,增強大模型對提示詞攻擊的防范能力。在輸出層,對智能體的輸出結果進行深入分析和檢測,以提高結果的安全性和合規(guī)性。
隨著大模型深入千行百業(yè),“每個App都值得用大模型重做一遍”的豪言壯語響徹業(yè)內。但在實際中,各行業(yè)的Know- How不是大模型平臺朝夕間就能掌握的。
針對特定領域的智能體開發(fā)是大模型落地的加速器,這一過程體現為AI生態(tài)的價值。在火山引擎邊緣智能研發(fā)負責人謝皓看來,“融入生態(tài)不僅是被集成,而是一種相向而行的互相集成。”
基于這一理念,最近一年,火山引擎邊緣智能已在不同領域推進行業(yè)生態(tài)合作,幫助眾多企業(yè)加速落地大模型,助力業(yè)務增長。比如地瓜機器人通過集成邊緣大模型網關入口,支持開發(fā)者通過標準化的ROS接口調用大模型,同時大模型網關主動集成ROS中間件,通過容器化提升中間件的復用價值,推動具身智能行業(yè)的數智化進程;抖音電商通過邊緣智能,完善智能倉儲基礎建設,構建智能物流體系;上海某高校通過火山引擎邊緣智能,面向產學研場景孵化邊緣AI方案,開創(chuàng)校企合作新篇章。
未來,是終端智能與虛實體驗融合的時代,也是一個視頻交互時代。來自市場調研機構的數據顯示,視頻是云業(yè)務中增長最快的工作負載之一,到2026年視頻在數據中心基礎設施中的占比將從10%增長到20%-25%。面對海量視頻資源的AI化處理需求和智能終端設備的訪問請求,火山引擎視頻云和邊緣云積累了自身的平臺經驗,并將能力開放給行業(yè)與開發(fā)者,使之逐步成為大模型時代的重要基礎設施和技術底座。
而隨著AI能力應用逐漸深入,在基礎設施能力之上,助力大模型在更多行業(yè)實現更好、更穩(wěn)、更快的落地成為新的時代命題。火山引擎深入業(yè)務場景,正打造趨勢洞察與技術迭代的飛輪,與各行業(yè)企業(yè)客戶一起推動技術創(chuàng)造真正的價值。(本文首發(fā)于鈦媒體APP)
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App