劃重點(diǎn)
01成立僅9個月的AI創(chuàng)業(yè)公司DreamTech專注于原生3D生成,團(tuán)隊(duì)擁有豐富的3D領(lǐng)域經(jīng)驗(yàn)。
02該公司發(fā)布了全球首個公開發(fā)布的具備可擴(kuò)展性的原生3D生成大模型Direct3D,具備50億參數(shù)規(guī)模。
03Direct3D模型參數(shù)每增加4倍,生成結(jié)果質(zhì)量精度提高2倍,尤其在動畫人物手指等精細(xì)部位表現(xiàn)明顯。
04除此之外,DreamTech還推出了二次元創(chuàng)作神器Neural4D和聊天應(yīng)用程序AnimeIt,旨在滿足創(chuàng)作者和普通用戶的需求。
05目前,DreamTech正致力于研發(fā)更大規(guī)模的模型,如16B版本的Direct3D-XL,以提升生成結(jié)果質(zhì)量精度。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
“實(shí)際上大眾都是3D內(nèi)容的消費(fèi)者。”
作者|八度
“在淘寶上,有特別多做3D創(chuàng)意設(shè)計(jì)的店鋪,他們一年的銷量能達(dá)到幾十萬件。原先他們是半人工操作,現(xiàn)在我們現(xiàn)在能夠借助AI、通過3D生成直接打印就可以了。”DreamTech創(chuàng)始人張飛虎向「甲子光年」展示道。
DreamTech雖然是一家成立僅9個月的AI創(chuàng)業(yè)公司,但其戰(zhàn)略路線明確,專注于原生3D生成,并且團(tuán)隊(duì)在這一領(lǐng)域的經(jīng)驗(yàn)豐富。
CEO張飛虎博士畢業(yè)于牛津大學(xué),師從英國皇家科學(xué)院、皇家工程院兩院院士Philip Torr。Philip Torr教授在3D建模方面有重點(diǎn)研究。此外,DreamTech創(chuàng)始團(tuán)隊(duì)成員還曾成功創(chuàng)立多家3D領(lǐng)域標(biāo)桿公司,后被蘋果、谷歌等業(yè)界巨頭收購。
這一次,DreamTech的成立,對于張飛虎和其團(tuán)隊(duì)來說,都是新的出發(fā)。不過在張飛虎看來,創(chuàng)業(yè)并非心血來潮,而是籌備已久:3D生成,終于走到了商業(yè)化的門前。
2023年下半年,DreamTech團(tuán)隊(duì)發(fā)現(xiàn)了3D技術(shù)的新方向能夠?qū)崿F(xiàn)端到端的生成模型,類似于圖像或視頻的處理方式。緊接著,他們又攻克了3D模型表征的關(guān)鍵難題。這兩者技術(shù)突破,讓張飛虎和他的團(tuán)隊(duì)看到了希望,隨即開展了一系列緊鑼密鼓的動作。
2024年5月,DreamTech團(tuán)隊(duì)公布了其研發(fā)的3D生成大模型Direct3D的算法研究論文,這也是全球首個公開發(fā)布的具備可擴(kuò)展性的原生3D生成大模型。該學(xué)術(shù)成果受到行業(yè)的廣泛關(guān)注,Meta、Apple、Adobe等企業(yè)相繼跟進(jìn)該研究論文。
8月份,DreamTech團(tuán)隊(duì)又推出了最新的Direct3D-5B版本,具備50億參數(shù)規(guī)模,成為目前全世界參數(shù)規(guī)模最大的3D生成大模型,這一模型具備scaling up能力,基本結(jié)論為:3D生成模型參數(shù)量每增加4倍,生成結(jié)果質(zhì)量精度提高2倍。
具體來說,在3D領(lǐng)域,動畫人物的手指等精細(xì)部位也可以被立體地生成。在模型幾何結(jié)構(gòu)規(guī)整度、細(xì)節(jié)精度上,Direct3D-5B也都實(shí)現(xiàn)了明顯的提升。
Direct3D-1B(上)與Direct3D-5B(下)對比
在產(chǎn)品即將正式上線前夕,張飛虎接受了「甲子光年」的專訪,詳細(xì)介紹了3D生成過去的痛點(diǎn)、如今在3D數(shù)據(jù)合成、算力、scaling law等方向上的突破。同時他還講述了今年對DreamTech團(tuán)隊(duì)來說,最為重要的一件事。
以下為采訪內(nèi)容,經(jīng)過編輯整理。
1.3D技術(shù)創(chuàng)業(yè):DreamTech的端到端原生3D之路
甲子光年:去年12月,DreamTech公司成立。當(dāng)時,是什么契機(jī)促使你們決定回國創(chuàng)業(yè)?
張飛虎:實(shí)際上,創(chuàng)業(yè)這個想法我準(zhǔn)備了比較長的一段時間,但確實(shí)在去年下半年才開始融資。
當(dāng)時,我們發(fā)現(xiàn)了一個核心的技術(shù)收斂:3D領(lǐng)域可以像圖像或視頻一樣做出端到端的生成模型,這是其他公司或研究人員尚未發(fā)現(xiàn)的。我們看到了3D領(lǐng)域scaling law的能力。
去年上半年還出現(xiàn)了一項(xiàng)新的技術(shù)進(jìn)展,叫DiT架構(gòu),它被應(yīng)用于文生圖。緊接著,我們自己解決了一個3D模型表征的問題,這是一個關(guān)鍵問題。將這兩者結(jié)合起來,我們看到了希望,認(rèn)為這個項(xiàng)目可以開始實(shí)施,并有望在今年(2024年)商業(yè)化。
簡單來說,去年下半年我們判斷今年可以開始進(jìn)行3D生成的商業(yè)化,而在此之前這是不可能的。
甲子光年:你剛提到為創(chuàng)業(yè)籌備了很久,是你在此之前一直在等這個時機(jī)?
張飛虎:對,其實(shí)在2022年初,我們就開始進(jìn)行相關(guān)的研究和開發(fā)。那年,我們在WAIC大會上展示了相關(guān)的demo,當(dāng)時關(guān)注度也比較高。但當(dāng)時的技術(shù)水平僅限于制作一些演示,而且速度非常慢,可能需要一個小時才能生成一個3D模型,效果也不理想。我當(dāng)時看到這個情況,就覺得它還沒有達(dá)到商業(yè)化的程度,所以我們一直在不斷地打磨和完善相關(guān)的技術(shù)。
直到去年,我們發(fā)現(xiàn)了新的算法實(shí)現(xiàn)方案,情況不一樣了。只要算力夠,我們能立馬去訓(xùn)練這個模型并開展商業(yè)化,所以我們在去年下半年啟動創(chuàng)業(yè)。
甲子光年:聽起來,你們關(guān)于創(chuàng)業(yè)的整個決策過程是比較順其自然的,并沒有太多困惑和矛盾?
張飛虎:我認(rèn)為這是我們最自豪的一點(diǎn)。我們的戰(zhàn)略決策做得就比較對,比如與市場上其他一些做3D生成的公司相比,包括海外的公司,他們在開始時選擇了2D轉(zhuǎn)3D這樣一套方案,花費(fèi)了幾千萬去做這樣一個模型或者上線產(chǎn)品。
但我們一直堅(jiān)持做端到端的原生3D,當(dāng)我們推出新方案后,舊的方案就全部被淘汰了。即便你投入了數(shù)千萬甚至上億的資金,在新的方案出來之后,所有的資源都要推倒重來。
我們在戰(zhàn)略決策上,由于我們自身的經(jīng)驗(yàn)比較豐富,我們團(tuán)隊(duì)是做3D領(lǐng)域起家的,也做過公司并出售過,在3D領(lǐng)域有十年以上的一個積累。所以我們在戰(zhàn)略決策時判斷哪些算法可行,哪些事情該做,我們的方向就比較準(zhǔn)確。
在融資拿到錢之后,我們就立馬就把這套方案給做出來了,基本上沒有浪費(fèi)什么時間和資源。
甲子光年:在你看來創(chuàng)業(yè)最重要的是什么?或者說,你在創(chuàng)業(yè)之初的一個目標(biāo)是什么?
張飛虎:我的目標(biāo)其實(shí)當(dāng)時考慮得很簡單。我2022年博士畢業(yè)前,也就是2021年,我已經(jīng)拿到了包括Google、Facebook等大公司的offer,也拿到了教職的邀請。
但我當(dāng)時想的是,我想要做出一些影響力較大的東西,而不是僅僅在學(xué)校或大公司的研究所里繼續(xù)做一些小規(guī)模的研究。
比如,我想要開展一些大型項(xiàng)目,但無論是在學(xué)校還是在大公司,我都做不到這一點(diǎn)。因?yàn)樵诖蠊,我不可能一進(jìn)去就能獨(dú)立開展一個非常大的項(xiàng)目,比如像現(xiàn)在的3D生成項(xiàng)目。
另外,在學(xué)校里,資源是有限的,尤其是數(shù)據(jù)和算力資源,這是學(xué)校無法提供的。因此,我當(dāng)時就想,如果想要做一個有影響力的大型項(xiàng)目,我就出來自己搞唄。這就是我當(dāng)時的想法。
2.3D技術(shù)突破:解鎖3D生成的scaling law潛力
甲子光年:你剛剛提到,在高校中進(jìn)行這項(xiàng)工作時,數(shù)據(jù)和算力無法滿足需求,是嗎?
張飛虎:對,首先,數(shù)據(jù)方面確實(shí)是一個難題。比如我們現(xiàn)在動輒需要處理的數(shù)據(jù)量達(dá)到1PB級別,這對于高校來說是無法支撐的。不僅是國內(nèi)高校,即便是世界頂尖的學(xué)府,像牛津大學(xué)這種,盡管有龐大的經(jīng)費(fèi),但它的算力也是有限的。
實(shí)際上,我們要做一些好的工作,其實(shí)大部分情況下還是需要跟外部公司做合作的,算力和數(shù)據(jù),都存在這樣一個瓶頸。
甲子光年:創(chuàng)業(yè)時,如何解決數(shù)據(jù)算力難題?
張飛虎:第一個是數(shù)據(jù)這塊,3D數(shù)據(jù)的獲取實(shí)際上非常困難。我們采取的策略是數(shù)據(jù)合成。
在我博士研究期間,我的課題是3D AI結(jié)合數(shù)據(jù)合成。因此,我們從2022年開始到2023年初,持續(xù)在做3D數(shù)據(jù)合成的工作,合成了非常多3D的數(shù)據(jù)。比如你剛才看到的那些二次元角色的數(shù)據(jù),都是我們合成的成果。
利用合成的3D數(shù)據(jù)訓(xùn)練AI,這是我們的獨(dú)家秘籍。
甲子光年:你們已經(jīng)合成了2000萬的數(shù)據(jù)?
張飛虎:對,3D數(shù)據(jù)的成本非常高,單個3D資產(chǎn)的平均制作成本大約是1000美元一個。
如果人工制作這些數(shù)據(jù),成本將是2000萬乘以1000美元,所以人工制作是不現(xiàn)實(shí)的,全世界沒有那么多人力可以完成這樣的工作,因此3D制作的難度非常大。唯一的解決方案就是數(shù)據(jù)合成。
我們在這塊做了比較領(lǐng)先的一些方案,而且把它做到了一個全球領(lǐng)先的程度,甚至有些大公司可能會來挖我們的人才。核心原因在于,我們不僅理解了算法,而且擁有大規(guī)模的數(shù)據(jù)支撐。這些數(shù)據(jù)的規(guī)?赡鼙仁澜缟先魏我患夜径家。
數(shù)據(jù)合成是一套非常復(fù)雜的系統(tǒng),它需要日積月累的的經(jīng)驗(yàn)和系統(tǒng)構(gòu)建,以及反饋機(jī)制。它是一個機(jī)器學(xué)習(xí)系統(tǒng),類似于我們早年看到的AlphaGo,涉及強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí),然后通過整個反饋過程,組合出一些真正有用的成果。
甲子光年:數(shù)據(jù)合成是從去年開始的嗎?
張飛虎:是的,去年年初開始,到現(xiàn)在有一年半了。
相比之下,其他公司可能需要購買數(shù)據(jù),或者花錢去爬取數(shù)據(jù),這當(dāng)然存在一定的法律風(fēng)險,屬于灰色地帶。另外,購買數(shù)據(jù)的成本非常高。所以我們的優(yōu)勢在于可以用低成本獲取大量合成數(shù)據(jù)。
甲子光年:你們是最開始就意識到數(shù)據(jù)是一個痛點(diǎn),所以很早就往這個方向去突破了,是嗎?
張飛虎:確實(shí),我們在算法之前,去年上半年,我們已經(jīng)開始搞數(shù)據(jù)了。
因?yàn)槲覀儓?jiān)定認(rèn)為(數(shù)據(jù))這件事比較重要,我對這方面的認(rèn)識比較足。我所在的牛津?qū)嶒?yàn)室是世界上非常知名的能夠進(jìn)行數(shù)據(jù)合成的實(shí)驗(yàn)室,為蘋果公司提供過相關(guān)的服務(wù)。我的導(dǎo)師認(rèn)為,在算法層面,它并沒有大家想象的那么困難,你不去做別人也會去做,但數(shù)據(jù)工作屬于基礎(chǔ)研究的領(lǐng)域。
整個AI領(lǐng)域都是建立在數(shù)據(jù)基礎(chǔ)之上的。例如,我們看大語言模型,F(xiàn)acebook開源的Llama 3與Llama 2相比,它的模型本身并沒有大改,它只是更新了數(shù)據(jù),將訓(xùn)練數(shù)據(jù)清洗得更干凈,并使用了更多的訓(xùn)練數(shù)據(jù),它的效果就直線提升了。實(shí)際上,數(shù)據(jù)才是AI的一個本質(zhì)問題。
有了數(shù)據(jù)的支撐,我們可以疊scaling law了。我們最近在研究中發(fā)現(xiàn)了一個非常重要的規(guī)律,在5月份時我還沒有完全搞清楚,但最近我們迭代出新版本的模型后,發(fā)現(xiàn)了一個特別重要的事情:3D生成領(lǐng)域的scaling law,咱們看大語言模型生成了scaling law,圖像模型生成了scaling law。
那到3D生成領(lǐng)域的scaling law是怎樣的呢?
我們發(fā)現(xiàn):模型參數(shù)每提升4倍,模型的精細(xì)度就能提高2倍,也就是說我們生成的圖像質(zhì)量可以提高2倍。比如原來我能做1厘米厚度的東西,我現(xiàn)在就能做到5毫米。
比如從1B到現(xiàn)在公開的5B,精細(xì)度的提升非常明顯。1B的手指有些彎曲,但5B的手指就非常直了。
甲子光年:在你看來,目前市場上有哪些算是DreamTech的競品?
張飛虎:我們在數(shù)據(jù)上的優(yōu)勢是任何一家公司都不具備的,哪怕是大公司。在算法層面上,我們迭代得非?,實(shí)際上各家可能主要在參考我們的一些相關(guān)研究,我們推動了這一波的技術(shù)革新。
長遠(yuǎn)看,數(shù)據(jù)一定是DreamTech最大的優(yōu)勢。
短期內(nèi),比如半年內(nèi),我們在算法上的優(yōu)勢也很大。從長遠(yuǎn)來看,可能取決于我們擁有多大規(guī)模的數(shù)據(jù)。這是一個持續(xù)的過程,而且是一個門檻非常高的領(lǐng)域。
3.3D技術(shù)革命:DreamTech的二次元創(chuàng)作神器
甲子光年:我看過資料,你們目前已經(jīng)開發(fā)了兩款產(chǎn)品,這其中哪款產(chǎn)品會被優(yōu)先開發(fā)?
張飛虎:你所看到的是Neural4D,這個產(chǎn)品是為創(chuàng)作者設(shè)計(jì)的。
另一款產(chǎn)品則是名為AnimeIt的應(yīng)用程序,它具備聊天和陪伴等功能,更偏向于C端市常
我們的商業(yè)化進(jìn)程是有明確時間節(jié)點(diǎn)的,特別是在10月份,我們將重點(diǎn)放在創(chuàng)作者產(chǎn)品這一部分,并計(jì)劃做一些活動,例如近期我們做了一個CuteMe的創(chuàng)意玩法,用戶可以通過照片創(chuàng)作Q版風(fēng)格化的3D形象,讓普通用戶也可以自由發(fā)揮創(chuàng)意。
Direct3D-1B 3D打印件效果
甲子光年:你們會為客戶提供哪些服務(wù)模式?
張飛虎:我們的服務(wù)模式之一是創(chuàng)意平臺,通過我們的產(chǎn)品,設(shè)計(jì)師可以注冊賬號,并推出一些增值功能,例如付費(fèi)用戶能夠體驗(yàn)到更多的功能。用戶在網(wǎng)站上生成內(nèi)容后,可以進(jìn)行編輯,并利用工具制作動畫,這些操作都可以在網(wǎng)站上完成。
用戶可以根據(jù)自己的需求使用這些內(nèi)容,比如游戲開發(fā)者可以將其用于游戲開發(fā),動畫師可以用于動畫制作,或者3D設(shè)計(jì)師可以將其打印出來,這是針對創(chuàng)作者的服務(wù),我們稱之為小B端的創(chuàng)作群體。
對于普通用戶,可能平時沒有意識到自己是3D資產(chǎn)的消費(fèi)者,但實(shí)際上大眾都是3D內(nèi)容的消費(fèi)者。
例如,在玩游戲時,我們可以為普通用戶開放一個APP。這個APP的功能允許用戶創(chuàng)造角色,包括Q版或二次元風(fēng)格的角色,并與之進(jìn)行互動,比如聊天和社交體驗(yàn),還可以為角色裝扮,類似于過去的QQ秀。
此外,用戶還可以將這些角色打印出來作為禮物送給他人,比如將家人的形象轉(zhuǎn)換成風(fēng)格化的角色后,作為禮物送給朋友或家人。
用戶還可以在APP上玩游戲,甚至自己制作小游戲,因?yàn)槲覀兊纳杉夹g(shù)非常強(qiáng)大,用戶可以創(chuàng)造出場景,拼接資產(chǎn),享受無限的可能性,比如自己創(chuàng)造游戲等。
甲子光年:現(xiàn)在生成需要多長時間?
張飛虎:大約1~2分鐘,這取決于后臺用戶排隊(duì)的情況。如果等待時間較長,很可能是因?yàn)楹笈_用戶太多。去年這個時候,可能最快也需要20分鐘。
甲子光年:你們是什么時候確定走二次元路線?
張飛虎:我們在做3D生成的時候進(jìn)行過市場調(diào)研,普通用戶大多不喜歡那種真實(shí)還原的效果。比如我給自己拍一張照片,然后做成100%還原的樣子,普通用戶并不喜歡,他們喜歡的是風(fēng)格化、可愛、卡通化的效果。
而且,這種風(fēng)格的受眾和市場規(guī)模要比其他風(fēng)格大得多。比如二次元在整個3D內(nèi)容消費(fèi)市場中占據(jù)了50%的份額,加上Q版風(fēng)格的,兩者加起來超過了80%。
所以去年我們確定以風(fēng)格化作為主要的路線。我們不會追求100%的真實(shí)還原,而是會進(jìn)行風(fēng)格化處理,比如你輸入的是一個人的真人圖像,我們可能會將其轉(zhuǎn)換成二次元形象,或者轉(zhuǎn)換成Q版形象。
甲子光年:基于你剛剛提到的全世界最大,包括之前也有資料顯示是全球首個原生3D大模型。我如何辨別或證明是否為全球首個?
張飛虎:你可以看到我們5月份最早發(fā)表的一篇關(guān)于原生3D的論文。這是目前公開發(fā)表的第一篇達(dá)到這種水平的論文。在此之前,確實(shí)還沒有類似的研究,大家都在嘗試其他的方案,但我們的這套方案是目前大家公認(rèn)的。例如,我們了解到歐美的大企業(yè)都在跟進(jìn)這套方案,都在朝這個方向去做。
甲子光年:外界會對3D市場有刻板印象,認(rèn)為3D的AI應(yīng)用會是一個相對小眾的市場,更適合設(shè)計(jì)師人群。你怎么看待這種觀點(diǎn)?
張飛虎:其實(shí)我剛才介紹行業(yè)的時候,每一個行業(yè)都非常非常大。當(dāng)時我們在做市場調(diào)研的時候,就發(fā)現(xiàn)一個問題,比如現(xiàn)在非常熱的圖像和視頻,大家傳統(tǒng)意義上認(rèn)為市場比較大,但大家會發(fā)現(xiàn)一個點(diǎn),就是大眾不太愿意為這些付費(fèi),因?yàn)榛ヂ?lián)網(wǎng)上這些東西都是天然存在的,是免費(fèi)的。
但在3D領(lǐng)域,并不是如此。在3D領(lǐng)域,我們平時獲取資產(chǎn)時,要么自己訂閱軟件,比如在海外,當(dāng)付費(fèi)習(xí)慣較好時,使用的都是正版軟件,如3D Max等建模軟件,年訂閱費(fèi)用約為1萬美元。
而當(dāng)用戶需要購買模型時,這與圖像和視頻也不一樣,因?yàn)閳D像和視頻可以輕易地截圖或錄制。但購買3D資產(chǎn)或虛擬資產(chǎn)時都需要付費(fèi),比如在sketchfab上購買一個最簡單的資產(chǎn),可能需要花費(fèi)大約10到15美元。即使在國內(nèi),用戶不太愿意付費(fèi)的情況下,他們也會知道在淘寶上購買盜版模型可能需要花費(fèi)幾塊錢。
所以這些是3D領(lǐng)域與其它領(lǐng)域不同的地方,我們不必?fù)?dān)心用戶不愿意付費(fèi)的問題,他們的付費(fèi)習(xí)慣非常好,也愿意為這些3D資產(chǎn)付費(fèi)。
另一個支撐這個行業(yè)龐大的因素是其下游應(yīng)用場景非常廣泛。
例如,游戲行業(yè)就是一個非常大的市常再比如3D設(shè)計(jì)行業(yè),它是一個萬億級別的行業(yè)。我們接觸到的許多用戶,比如珠寶設(shè)計(jì)師、鞋類設(shè)計(jì)師,或者其它類型的設(shè)計(jì)師,他們可能會設(shè)計(jì)出某個產(chǎn)品,生成一個3D模型,并將其制作成3D打印產(chǎn)品。此外,有些用戶可能會購買一個花瓶,如果只是普通購買,可能只需要花費(fèi)10元錢,但如果這個花瓶是用戶自己創(chuàng)造的、獨(dú)一無二的設(shè)計(jì),那么他們可能愿意花費(fèi)幾百元。
在歐洲和國內(nèi),年輕人在創(chuàng)業(yè)和設(shè)計(jì)領(lǐng)域的需求非常大。具體來說,有幾個非常大的行業(yè)。首先是創(chuàng)意設(shè)計(jì)領(lǐng)域,我們一直認(rèn)為它是一個千億甚至萬億級別的市場,這完全依賴于3D技術(shù),因?yàn)樗枰谱鲗?shí)物。另一個是游戲行業(yè),我們看到了《黑神話:悟空》上線幾天就賺取了十幾億的收入,它完全是基于3D技術(shù)。
當(dāng)我們的3D生成技術(shù)成熟后,我們認(rèn)為即使是小團(tuán)隊(duì)也能夠開發(fā)3A級別的大作。
目前3D應(yīng)用最困難的部分還是模型的制作,可能需要花費(fèi)數(shù)年時間進(jìn)行建模和掃描。但在3D技術(shù)成熟后,開發(fā)這類3A大作游戲?qū)⒆兊梅浅:唵巍_有動畫行業(yè),現(xiàn)在3D動畫正成為主流,動畫也是一個千億級別的市常
為什么說3D動畫的體驗(yàn)感要比2D好很多?2D動畫是一張張圖畫,然后將它們連接起來使動畫動起來。而3D動畫則是先建立3D模型,然后通過動作捕捉技術(shù),讓人的表情和動作驅(qū)動模型,最后渲染出一部動畫,其流暢性和連貫性都非常好。還有大家期待非常高的AR和VR行業(yè),整個生態(tài)完全依賴于3D技術(shù)。
甲子光年:3D其實(shí)是在迭代這些行業(yè)?
張飛虎:對,它會讓這些行業(yè)做得更好玩,而且讓每一個用戶都可以獨(dú)立創(chuàng)作。同時,比如我們期待的元宇宙和AR、VR技術(shù),為何之前的發(fā)展并不成熟,沒有起來?核心原因有兩個:一是內(nèi)容太少,無法生產(chǎn)出好玩的內(nèi)容。3D建模太難了,沒有這類資產(chǎn)和數(shù)據(jù),不像圖像或視頻那樣簡單,3D建模的難度確實(shí)很大。
另一個原因就是硬件設(shè)備還不成熟。設(shè)備的成熟可能是一個漸進(jìn)的過程,當(dāng)然,這需要硬件公司來解決。
我們把3D內(nèi)容這塊做好,這是3D生態(tài)的一個基礎(chǔ)技術(shù),它的重要性就像現(xiàn)在的文字和圖像在互聯(lián)網(wǎng)上的重要性一樣,在XR這個生態(tài)系統(tǒng)中,3D是一個基礎(chǔ)元素級別的關(guān)鍵要素。
甲子光年:你認(rèn)為今年對DreamTech來說最重要的一件事是什么?
張飛虎:我們認(rèn)為最重要的是在年底前完成15B至16B模型,也就是我們稱之為XL模型的迭代。
這個模型對我們的數(shù)據(jù)處理要求非常高,它意味著我們從數(shù)據(jù)合成階段進(jìn)入到數(shù)據(jù)閉環(huán)階段。同時,在這一基礎(chǔ)上,我們將開發(fā)出更多的商業(yè)應(yīng)用。這是我們今年年底的目標(biāo),就是訓(xùn)練出一個具有160億參數(shù)的模型。
目前,由于算力限制,我們實(shí)際上并沒有使用全部數(shù)據(jù)進(jìn)行訓(xùn)練,例如我們的5B版本模型僅使用了大約400萬數(shù)據(jù)。而XL模型將使用全部2000萬訓(xùn)練數(shù)據(jù)。
Direct3D 迭代路線圖,DreamTech下一個目標(biāo):Direct3D-XL(16B)版本,將進(jìn)一步提升生成結(jié)果質(zhì)量精度
甲子光年:這個一旦做成其實(shí)也是一個里程碑。
張飛虎:對,它將是一個非常大的里程碑。我們自己的C端產(chǎn)品都可以在這個基礎(chǔ)上做得非常好。而在明年上半年,基于這個模型,我們可能會經(jīng)歷一個用戶數(shù)量激增的階段。
(封面圖來源及文中圖片來源:DreamTech)