提起虛擬世界,你也許馬上會(huì)聯(lián)想到電影《黑客帝國(guó)》、《頭號(hào)玩家》以及開(kāi)放世界游戲《荒野大鏢客》、《GTA》等娛樂(lè)消費(fèi)級(jí)場(chǎng)景。構(gòu)建這些虛擬世界背后的 3D 資產(chǎn),已經(jīng)形成了數(shù)百億美元的巨大市場(chǎng)。
但實(shí)際上,3D 虛擬世界在工業(yè)設(shè)計(jì)、標(biāo)注數(shù)據(jù)生成、算法訓(xùn)練等諸多工業(yè)場(chǎng)景下,都具有巨大的需求潛力。
從文字、音頻(1D)到圖片、視頻(2D),AI 技術(shù)的飛速發(fā)展引發(fā)了內(nèi)容生產(chǎn)方式的革命性變化,在巨大的市場(chǎng)驅(qū)動(dòng)下,3D 正逐漸成為人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)的下一個(gè)“戰(zhàn)場(chǎng)”。
今年 9 月,美國(guó)國(guó)家工程院院士、美國(guó)斯坦福大學(xué)教授李飛飛以打造大世界模型為目標(biāo),宣布成立美國(guó) AI 初創(chuàng)公司 WorldLabs,并提出“空間智能”的概念。
在國(guó)內(nèi),一家名為 Intime AI(虛時(shí)科技)的初創(chuàng)公司聚焦高保真 3D 場(chǎng)景的自動(dòng)生成領(lǐng)域,在行業(yè)內(nèi)逐漸嶄露頭角。
值得關(guān)注的是,該公司從籌備至今歷時(shí)僅半年時(shí)間,已經(jīng)在技術(shù)上取得突破,并在某 S 級(jí)影視劇的綠幕背景合成環(huán)節(jié)實(shí)現(xiàn)商業(yè)落地。
據(jù)悉,目前 Intime AI 自研的 Aether 模型能夠基于提示詞在數(shù)小時(shí)內(nèi)生成達(dá)到影視級(jí)標(biāo)準(zhǔn)的高保真、可編輯 3D 場(chǎng)景,與傳統(tǒng)方式相比,效率提升了數(shù)十倍。
(來(lái)源:Intime AI)
3D AIGC 面臨的挑戰(zhàn)與困境
從文字、音頻到圖片、視頻,AIGC 的發(fā)展路徑與人類對(duì)內(nèi)容的主流消費(fèi)模式是高度關(guān)聯(lián)的,人類總是傾向于消費(fèi)單位時(shí)間內(nèi)信息密度更高的內(nèi)容形式。
在此過(guò)程中,形成了眾多耳熟能詳?shù)?AIGC 大模型。例如,以 GPT-4 為代表的自然語(yǔ)言處理模型,以 Midjourney 為代表的圖片生成模型,以 Sora、Runway 和可靈 AI 為代表的視頻生成模型。
但是,既然人類并不能直接感知、消費(fèi) 3D 內(nèi)容,為什么 3D 還能成為 AIGC 的一個(gè)重要的發(fā)展領(lǐng)域?為什么前些年提出的元宇宙、XR 等 3D 消費(fèi)場(chǎng)景能夠一度激發(fā)如此大的市場(chǎng)熱情?
終其原因,物理世界本質(zhì)是三維的,3D 是現(xiàn)實(shí)世界的表示形式與信息的終極載體。因此,3D 表現(xiàn)形式獨(dú)有的空間感知能力,能夠?yàn)閮?nèi)容增添沉浸感和真實(shí)感,并真實(shí)無(wú)損地傳遞信息。
而降維儲(chǔ)存信息的方式,無(wú)論文字、圖片還是音視頻,都會(huì)導(dǎo)致信息損失,在“所想”與“所見(jiàn)”之間割裂出一道鴻溝。
從 AIGC 的角度來(lái)看,3D 內(nèi)容的終極目標(biāo),即大世界模型,不僅有望突破現(xiàn)有需求的極限,在娛樂(lè)、教育、科研、設(shè)計(jì)和制造等多個(gè)領(lǐng)域激發(fā)新的需求,提供全新的用戶體驗(yàn),其本身對(duì)于 AI 的演進(jìn)和智能的進(jìn)一步涌現(xiàn),也具有決定性意義。
然而,想要真正實(shí)現(xiàn)虛擬世界的實(shí)時(shí)生成能力,3D AIGC 仍面臨諸多挑戰(zhàn)。首當(dāng)其沖的問(wèn)題就是 3D 數(shù)據(jù)集的極度稀疏,由于 3D 數(shù)據(jù)的應(yīng)用領(lǐng)域繁多、各領(lǐng)域?qū)?3D 數(shù)據(jù)的表達(dá)差異顯著,數(shù)據(jù)收集與標(biāo)注的難度極大。
同時(shí),與 2D 數(shù)據(jù)相比,3D 數(shù)據(jù)復(fù)雜度高,并缺乏通用性表達(dá),即使獲得了足夠的數(shù)據(jù),能否無(wú)損地輸入模型進(jìn)行訓(xùn)練也是一個(gè)不小的挑戰(zhàn)。
另外,AIGC 目前普遍面臨可控性差的問(wèn)題,使其難以嵌入專業(yè)的生產(chǎn)管線,這在圖片、視頻等領(lǐng)域均有體現(xiàn)。但對(duì)于專業(yè)門檻更高、分工更加精細(xì)的 3D 領(lǐng)域,無(wú)法滲透到傳統(tǒng)的工作流意味著產(chǎn)品從根本上“不可用”,這將導(dǎo)致該領(lǐng)域的商業(yè)化落地顯得困難重重。
用自研技術(shù)框架型,彌合“所想”和“所見(jiàn)”之間的鴻溝
為應(yīng)對(duì)上述挑戰(zhàn),Intime AI 突破現(xiàn)有主流方案,提出了一種顛覆性的自研技術(shù)框架,并在此框架下開(kāi)發(fā)出一整套原創(chuàng)算法,通過(guò)把 3D 數(shù)據(jù)降維進(jìn)行通用表達(dá),不僅大幅降低了訓(xùn)練數(shù)據(jù)量級(jí),同時(shí)還將真實(shí)物理世界的參數(shù)引入模型,顯著提升了模型的生成質(zhì)量。
此外,模型生成內(nèi)容還具備完全的可編輯性,使其能夠很好地嵌入下游需求方的生產(chǎn)管線。
這款文生 3D 場(chǎng)景模型目前被命名為“Aether”,名稱緣起于漫威宇宙中的現(xiàn)實(shí)寶石,象征著團(tuán)隊(duì)希望通過(guò)這項(xiàng)技術(shù)實(shí)現(xiàn)隨意創(chuàng)造并改造數(shù)字世界的能力。
圖丨 Aether 模型工作流程示意圖(來(lái)源:Intime AI)
Intime AI 創(chuàng)始人兼 CEO 王德博士說(shuō)道:“3D AIGC 面臨的數(shù)據(jù)集稀疏、商業(yè)化落地難等痛點(diǎn)是客觀事實(shí),但機(jī)遇和挑戰(zhàn)永遠(yuǎn)是一體兩面的,目前的各種難題使得行業(yè)在短期內(nèi)難以出現(xiàn)一個(gè)通用性的解決方案,這也給了我們這樣的初創(chuàng)公司進(jìn)入行業(yè)和快速發(fā)展的機(jī)會(huì)!
對(duì)于解決 3D 領(lǐng)域挑戰(zhàn)的核心,王德認(rèn)為最終還是需要著眼于算法!皵(shù)據(jù)量、可控性、可編輯等問(wèn)題對(duì)于 DiT(Diffusion Transformer)架構(gòu)來(lái)說(shuō)是極難解決的。其實(shí)對(duì)于 AI 本身來(lái)說(shuō),Transformer 架構(gòu)的潛力也已經(jīng)接近瓶頸,我們想要在 3D 這條路上走下去、走得遠(yuǎn),就必須在技術(shù)框架和算法層面進(jìn)行革新!
通過(guò)一系列的大膽嘗試和技術(shù)革新,Aether 模型目前已經(jīng)取得了一定的技術(shù)優(yōu)勢(shì),主要表現(xiàn)為:
第一,生產(chǎn)效率高。
傳統(tǒng)方法制作大型世界場(chǎng)景需要數(shù)周甚至數(shù)月的時(shí)間,而該模型能在幾小時(shí)內(nèi)完成同等規(guī)模場(chǎng)景的生成,小規(guī)模場(chǎng)景可在不到 1 小時(shí)內(nèi)完成。
第二,生成內(nèi)容質(zhì)量比肩人工建模水平。
值得關(guān)注的是,Aether 模型的核心算法由團(tuán)隊(duì)自研,不同于傳統(tǒng)的 DiT 架構(gòu),該算法通過(guò)引入物理參數(shù)和對(duì)人工建模過(guò)程的模擬,使得模型的生成質(zhì)量得到大幅提升,尤其在保真度和幾何結(jié)構(gòu)、拓?fù)洳季等方面,質(zhì)量已接近人工建模的水平。
在精度方面,模型生成的單一場(chǎng)景包含超過(guò) 2000 萬(wàn)個(gè)平面多邊形,超高的細(xì)膩度使生成場(chǎng)景的呈現(xiàn)效果更加真實(shí)和自然。
第三,由模型生成的場(chǎng)景和其中的各項(xiàng)資產(chǎn)均具有高度可編輯性。
基于 DiT 架構(gòu)生成的內(nèi)容普遍面臨可控性差的問(wèn)題,使其難以嵌入傳統(tǒng)的專業(yè)生產(chǎn)管線,這在 3D 領(lǐng)域顯得尤為突出。
Aether 模型的優(yōu)勢(shì)之一在于,其生成場(chǎng)景及其中的所有資產(chǎn)均支持用戶二次編輯,并能輸出適配主流 3D 引擎的各種文件格式,這對(duì)于快速實(shí)現(xiàn)商業(yè)化具有重要意義。
從 3D 場(chǎng)景生成向 4D 大世界模型推進(jìn)
王德在 AI 領(lǐng)域深耕十余年,于美國(guó)特拉華大學(xué)獲得博士學(xué)位,期間主要研究方向?yàn)闄C(jī)器學(xué)習(xí)算法和優(yōu)化。
畢業(yè)后曾在美國(guó)科技公司亞馬遜長(zhǎng)期擔(dān)任 Alexa 語(yǔ)音助手項(xiàng)目語(yǔ)音識(shí)別技術(shù)(ASR,Automatic Speech Recognition)的負(fù)責(zé)人,帶領(lǐng)團(tuán)隊(duì)落地了基于 Transformer 架構(gòu)的語(yǔ)音識(shí)別模型。
在美國(guó)學(xué)習(xí)和工作的十余年時(shí)間中,他的工作和研究覆蓋了 AI 算法的多個(gè)方向和數(shù)據(jù)結(jié)構(gòu),并擁有多項(xiàng)語(yǔ)音算法專利。
見(jiàn)證了 AI 技術(shù)從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)算法,再到基于 Transformer 架構(gòu)的大模型,技術(shù)的持續(xù)爆發(fā)和應(yīng)用場(chǎng)景的不斷演變讓他深刻感受到,3D 將是 AIGC 的下一個(gè)涌現(xiàn)。
Intime AI 的創(chuàng)始團(tuán)隊(duì)匯集了海內(nèi)外知名互聯(lián)網(wǎng)巨頭的技術(shù)骨干,以及工業(yè) 3D 設(shè)計(jì)、金融投資等領(lǐng)域的行業(yè)專家,能夠助力公司在發(fā)展戰(zhàn)略、產(chǎn)品適配、商業(yè)路徑規(guī)劃等方面合理規(guī)劃。
王德表示:“除了在技術(shù)層面的革新,我們?cè)诋a(chǎn)品定位和商業(yè)化方面做了大量思考與行業(yè)調(diào)研,對(duì)于現(xiàn)階段的技術(shù)能力來(lái)說(shuō),我認(rèn)為 3D AIGC 應(yīng)該先做到‘能用‘、‘垂直領(lǐng)域商業(yè)化’,再向‘好用’和‘多領(lǐng)域全面商業(yè)化’去發(fā)展。
圖丨王德(來(lái)源:王德)
“無(wú)論在影視還是游戲中,‘對(duì)象’給到用戶的第一需求場(chǎng)景就是道具、角色形象,但這些基本都是以近景、特寫(xiě)的形式呈現(xiàn)的,這就對(duì)模型的質(zhì)量提出了很高的要求,而質(zhì)量不夠高、可控性差又恰恰是目前 AIGC 的難點(diǎn),這就導(dǎo)致了商業(yè)落地難的問(wèn)題。”
他指出,相反,“場(chǎng)景”往往是以中遠(yuǎn)景去進(jìn)行視覺(jué)呈現(xiàn),這天然給 AI 生成內(nèi)容提供了一定的包容度。因此 Intime AI 認(rèn)為,從“場(chǎng)景”出發(fā)是更好的切入點(diǎn),產(chǎn)品落地的可能性更高。
目前 Intime AI 已經(jīng)與行業(yè)內(nèi)頭部影視制作公司達(dá)成合作,通過(guò)高效生成 3D 場(chǎng)景幫助用戶進(jìn)行影視素材的背景合成和虛擬拍攝等工作。
當(dāng)前,公司以場(chǎng)景生成為切口,通過(guò)嵌入影視行業(yè)傳統(tǒng)工作流,在拓展 B 端業(yè)務(wù)的同時(shí)積累高質(zhì)量數(shù)據(jù)、推動(dòng)模型基礎(chǔ)能力的持續(xù)提升。
未來(lái)一至兩年內(nèi),公司計(jì)劃將模型 SaaS 化,打造面向 3D 專業(yè)創(chuàng)作者的高效智能工具,通過(guò)數(shù)據(jù)飛輪大幅提升模型的泛化能力,提供 3D 資產(chǎn)生成的通用性解決方案,并將公司業(yè)務(wù)范圍重點(diǎn)拓展至游戲與空間智能領(lǐng)域。
“我們計(jì)劃在未來(lái)一年內(nèi)推出面向 C 端的 AI 3D 智能引擎,這將為專業(yè)創(chuàng)作者提供顛覆性的使用體驗(yàn),并在游戲制作、空間智能等消費(fèi)級(jí)與工業(yè)級(jí)場(chǎng)景打開(kāi)廣闊的市場(chǎng)空間,通過(guò)商業(yè)和技術(shù)的循環(huán)迭代打造強(qiáng)勁的競(jìng)爭(zhēng)優(yōu)勢(shì)!蓖醯抡f(shuō)。
此外,他們以實(shí)現(xiàn) 4D 大世界模型的生成能力為遠(yuǎn)期目標(biāo),計(jì)劃進(jìn)一步在模型中融入多種動(dòng)態(tài)感知技術(shù),如數(shù)字人與場(chǎng)景的互動(dòng)、高質(zhì)量物理模擬等。
隨著 3D AIGC 領(lǐng)域技術(shù)的累積和發(fā)展,未來(lái)相關(guān)領(lǐng)域的傳統(tǒng)生產(chǎn)方式是否會(huì)被完全替代呢?
王德認(rèn)為,由于 3D 本身就是一個(gè)專業(yè)門檻很高的內(nèi)容形式,且不同于圖片或視頻,3D 資產(chǎn)并沒(méi)有很直接的 C 端消費(fèi)場(chǎng)景,因此 3D AIGC 幾乎只能作為傳統(tǒng)創(chuàng)作者的輔助工具,嵌入專業(yè)生產(chǎn)管線中,而非徹底顛覆現(xiàn)有的內(nèi)容生產(chǎn)方式和流程。
“面對(duì)諸多挑戰(zhàn),3D AIGC 應(yīng)遵循‘漸進(jìn)’、‘可行’的發(fā)展路徑,這其中最關(guān)鍵的還是算法的突破和數(shù)據(jù)的積累!彼f(shuō)。
盡管 AI 技術(shù)在 3D 領(lǐng)域仍面臨許多未知和挑戰(zhàn),但正是這些未知因素,為技術(shù)發(fā)展和 3D AIGC 賽道的創(chuàng)業(yè)帶來(lái)了無(wú)限的可能性。
參考資料:
https://www.intimeai.cn/
運(yùn)營(yíng)/排版:何晨龍