9月11日-14日,由鈦媒體與ITValue共同主辦的2024 ITValue Summit 數(shù)字價(jià)值年會(huì)在三亞舉行。此次峰會(huì)主題為“Ready For AI”,交流經(jīng)驗(yàn)教訓(xùn),交叉行業(yè)思考,推動(dòng)創(chuàng)新交易,以創(chuàng)新場景為基礎(chǔ),共同探索AI驅(qū)動(dòng)下數(shù)字經(jīng)濟(jì)時(shí)代的全新機(jī)遇,共同打造一場數(shù)字經(jīng)濟(jì)時(shí)代的AI創(chuàng)新探索盛宴。
大會(huì)上,OceanBase CEO楊冰以“人工智能時(shí)代,如何重構(gòu)現(xiàn)代數(shù)據(jù)架構(gòu)”的主題進(jìn)行了分享。
楊冰表示,大數(shù)據(jù)和數(shù)據(jù)庫企業(yè)得益于互聯(lián)網(wǎng)與云的機(jī)遇,迅速崛起,期間聚焦于解決分布式系統(tǒng)帶來的擴(kuò)展性和復(fù)雜性挑戰(zhàn)。AI時(shí)代,CIO的關(guān)注點(diǎn)已不再局限于這一難題,而是聚焦于如何讓應(yīng)用和業(yè)務(wù)實(shí)現(xiàn)更好的交互,如何挖掘數(shù)據(jù)價(jià)值,實(shí)現(xiàn)更精準(zhǔn)洞察。從技術(shù)架構(gòu)角度,其關(guān)鍵詞已從“分”切換到“合”,是融合、統(tǒng)一。
各位嘉賓,大家上午好!非常開心鈦媒體邀請我來數(shù)字價(jià)值年會(huì)跟大家交流。
我今天分享的主題是“人工智能時(shí)代,如何重構(gòu)現(xiàn)代數(shù)據(jù)架構(gòu)”。如今,數(shù)字化已經(jīng)不是一個(gè)新話題了,有些行業(yè)處在在深水區(qū),有些行業(yè)則在加速進(jìn)行數(shù)字化轉(zhuǎn)型。但今天在轉(zhuǎn)型過程中,加入了一個(gè)超級變量AI,AI目前突破的形態(tài)是語言模型和多模態(tài)模型,它的發(fā)明改變的不僅僅是人和機(jī)器的交互方式。我有兩個(gè)點(diǎn)感觸特別深,第一,AI對于整個(gè)物理世界的理解力得到了極大的增強(qiáng)。前段時(shí)間,聽說前谷歌CEO在斯坦福的演講很有意思,視頻很長我就先丟給了AI問它:Eric聊了什么?有哪些有意思的觀點(diǎn)?對此你怎么看?幾秒鐘后就出來了結(jié)果。比如,我剛才出去接了一個(gè)電話,漏掉了一段關(guān)鍵分享的信息,我可以馬上問AI,剛才我遺漏了什么信息?這種理解力和效率結(jié)合各種場景,就會(huì)極大顛覆很多場景的數(shù)字化的實(shí)現(xiàn)方式,這是第一個(gè)感受。第二個(gè)感受是AI正在改變寫代碼的方式,特斯拉的FSD從30萬行代碼簡化成3000行,很多的程序邏輯被模型替代了,這代表著構(gòu)建數(shù)字世界的方式正在深刻變化,AI的能力不再是寫程序時(shí)候的一個(gè)外掛或者功能強(qiáng)大的函數(shù),而是成為程序邏輯本身。這僅僅是很小的兩個(gè)點(diǎn),AI能力的突變正在深刻的改變著數(shù)字經(jīng)濟(jì)發(fā)展的節(jié)奏。
在大的變革下,數(shù)據(jù)架構(gòu)作為數(shù)字經(jīng)濟(jì)底座,我們將會(huì)遇見很多挑戰(zhàn)。第一個(gè)挑戰(zhàn),是數(shù)據(jù)量的通貨膨脹,現(xiàn)在億級的數(shù)據(jù)量已經(jīng)是個(gè)普通體量了,很多業(yè)務(wù)線上化或者數(shù)據(jù)匯聚后者打通后,自然就到了這個(gè)量級。第二個(gè)挑戰(zhàn),數(shù)據(jù)孤島和碎片化嚴(yán)重,現(xiàn)代應(yīng)用需要用不同的數(shù)據(jù)模型來描述業(yè)務(wù),比如關(guān)系模型,圖,時(shí)序,還有向量,底層用了一堆不同的數(shù)據(jù)存儲(chǔ)系統(tǒng),但需要分析洞察的時(shí)候需要費(fèi)很大的勁才能將其匯聚,對齊,很多時(shí)候這些數(shù)據(jù)是描述同一業(yè)務(wù)的不同側(cè)面。第三個(gè)挑戰(zhàn)就是數(shù)字化后對數(shù)據(jù)的分析需求會(huì)爆發(fā),只將數(shù)據(jù)存在那里是沒價(jià)值的,只有分析才能挖掘更大的價(jià)值,但要想分析的更準(zhǔn)確更深刻,數(shù)據(jù)也需要融合,所以這兩個(gè)挑戰(zhàn)的相關(guān)性很強(qiáng)。第四個(gè)挑戰(zhàn)是數(shù)據(jù)的安全,越來越多數(shù)據(jù)被存在云上,而且目前云上的安全和容災(zāi)也比較完善,但安全是個(gè)相對的概念,同一朵云的安全是一套同構(gòu)系統(tǒng)的相對安全,如果數(shù)據(jù)極為關(guān)鍵或者業(yè)務(wù)連續(xù)性要求極高,增加異構(gòu)系統(tǒng)的備份是相對更安全的選擇。最后個(gè)挑戰(zhàn),是AI快速發(fā)展帶來的挑戰(zhàn),AI會(huì)加速數(shù)據(jù)量增長的速度,也會(huì)帶來對數(shù)據(jù)使用的新要求,我后面會(huì)展開來講。
從架構(gòu)層面的挑戰(zhàn)看,這幾年發(fā)展很快,在應(yīng)用層已經(jīng)分布式化了,在底層已經(jīng)云化,這兩層的戰(zhàn)爭已經(jīng)結(jié)束,形成了標(biāo)準(zhǔn)的模式。在PaaS層,上半場最大挑戰(zhàn)是在解決有狀態(tài)數(shù)據(jù)的分布式的問題,尤其是數(shù)據(jù)層的軟件更是如此。而隨著AI入局的下半場,我認(rèn)為主要的趨勢是讓系統(tǒng)具備 “分”的能力的同時(shí),消除 “分”帶來的復(fù)雜性,尤其是讓數(shù)據(jù)能融合,架構(gòu)能統(tǒng)一。
對于能應(yīng)對這些挑戰(zhàn)的現(xiàn)代數(shù)據(jù)架構(gòu),全球領(lǐng)軍IT的的踐行者們有很多的共識,無論是老牌的IBM還是云時(shí)代的領(lǐng)軍者AWS,還是數(shù)據(jù)領(lǐng)域持續(xù)領(lǐng)跑的當(dāng)紅炸子雞Snowflake,他們的觀點(diǎn)有很多的共識,比如應(yīng)對數(shù)據(jù)孤島、跨云部署、多模態(tài)數(shù)據(jù)的處理,對AI/ML的支持、數(shù)據(jù)的實(shí)時(shí)分析能力等等。Gartner在今年的Hype Cycle for Data Management的報(bào)告中提到,全球最領(lǐng)先的數(shù)據(jù)管理軟件公司有四個(gè)特點(diǎn):第一,必須在云上;第二,其產(chǎn)品線中一定有領(lǐng)先的數(shù)據(jù)分析類產(chǎn)品,承接持續(xù)增強(qiáng)的分析需求;第三,支持多模態(tài)數(shù)據(jù)類型的存儲(chǔ);最后是開源。作為OLTP方向的數(shù)據(jù)庫,我們也非常認(rèn)同這幾個(gè)方向,站在數(shù)據(jù)庫的角度總結(jié)了五個(gè)點(diǎn),前面幾個(gè)是比較共性的就不展開講了,稍微解釋下后面三個(gè):多模融合是指,未來的數(shù)據(jù)存儲(chǔ)應(yīng)該是同時(shí)支持關(guān)系模型,KV模型,向量、地理位置、時(shí)序等不同的數(shù)據(jù)模型的一體化架構(gòu),避免數(shù)據(jù)的割裂和碎片;開放和靈活性是指對不同基礎(chǔ)設(shè)施的支持,架構(gòu)開放解耦不綁定任何底座和硬件,支持異構(gòu)的云,也支持云和IDC基礎(chǔ)設(shè)施長期并存的情況。SQL和AI融合主要指AI能力在數(shù)據(jù)庫層的融合,會(huì)體現(xiàn)在SQL交互層,運(yùn)維效率提升方面,后面會(huì)展開。
現(xiàn)代數(shù)據(jù)架構(gòu)的演進(jìn)也分上半場和下半場,上半場的主題是云和分布式,中國能發(fā)展出一批優(yōu)秀的數(shù)據(jù)庫公司,具備世界領(lǐng)先的能力,也得益于上半場中國在互聯(lián)網(wǎng)和云計(jì)算方面的高速發(fā)展。云的上半場,數(shù)據(jù)架構(gòu)的核心問題是如何在解決數(shù)據(jù)分布式的情況下保持一致且成本最低;具備極強(qiáng)的彈性擴(kuò)縮容能力,能做到不停機(jī)不打擾業(yè)務(wù);在出現(xiàn)故障后又自動(dòng)恢復(fù)確保業(yè)務(wù)不中斷;這些都是現(xiàn)代架構(gòu)下數(shù)據(jù)庫的必答題。當(dāng)年支付寶被挖斷光纜,倒逼我們實(shí)現(xiàn)了多地多活架構(gòu)架構(gòu),雙十一的流量洪峰倒逼我們解決了極致彈性和高并發(fā)分布式事務(wù)問題,這是上半場解決“分”的創(chuàng)新,我認(rèn)為上半場滿足了云時(shí)代的需求,今天全面適應(yīng)和擁抱AI時(shí)代數(shù)據(jù)架構(gòu)應(yīng)該走向何方?在下半場,分布式帶來的擴(kuò)展性、成本、復(fù)雜性,已經(jīng)不再是問題,從技術(shù)的架構(gòu)角度來看就應(yīng)該合并同類項(xiàng),消除不必要的數(shù)據(jù)碎片和重復(fù)建設(shè)。未來的應(yīng)用重點(diǎn)和CIO關(guān)注點(diǎn)不應(yīng)該是分布式如何擴(kuò)展,而是應(yīng)該把精力放在關(guān)注在如何讓系統(tǒng)和客戶之間有更好的交互方式,應(yīng)該放在如何把數(shù)據(jù)的價(jià)值挖掘出來,數(shù)據(jù)只有融合、交叉才會(huì)有更精準(zhǔn)的洞察。我們現(xiàn)在從“分”慢慢走向“合”,從產(chǎn)品、引擎、存儲(chǔ)架構(gòu)上走向統(tǒng)一和融合。我旁邊放了一張圖,這是三代SpaceX的猛禽引擎的架構(gòu)演進(jìn),從雜亂無章到極簡主義,工程的難度增加,但是簡單并不意味著弱小,V3相比V1增加了1000多噸的推力。我們?nèi)绾卧趶?fù)雜場景下,讓AI更好地用融合的數(shù)據(jù)給上層應(yīng)用提供價(jià)值,同時(shí)屏蔽復(fù)雜度,這是所有數(shù)據(jù)庫公司發(fā)展的必然趨勢。
接下去給大家分享幾個(gè)一體化數(shù)據(jù)架構(gòu)的場景,一個(gè)是交易和分析的融合,這種場景有三種場景的情況,一種是實(shí)時(shí)報(bào)表,一天后的報(bào)表可以一小時(shí)內(nèi)就看到,但在線庫支持交易和離線庫支持報(bào)表已經(jīng)有兩套體系了,是不是還需要為小時(shí)級的報(bào)表再建第三套數(shù)據(jù)?另一種情況是在零售行業(yè)中,同一套進(jìn)銷存的系統(tǒng)白天支持交易,晚上盤點(diǎn)分析庫存,銀行里白天交易晚上跑批的場景也是類似的,在很多場景里僅僅是在不同的時(shí)段支持不同的負(fù)載,但表結(jié)構(gòu)和數(shù)據(jù)集是同一套,為此往往需要搭建兩套數(shù)據(jù)存儲(chǔ)和一套數(shù)據(jù)同步系統(tǒng),是否能讓架構(gòu)變得更簡單?最后一種情況是一邊在線上做實(shí)時(shí)交易,一邊做營銷,兩種負(fù)載同時(shí)進(jìn)行,如何根據(jù)交易的情況分析洞察,給用戶最精準(zhǔn)的優(yōu)惠券。實(shí)時(shí)風(fēng)控也類似,能不能通過實(shí)時(shí)分析對幾分鐘之前的交易特征做出反應(yīng),更新風(fēng)控模型識別出新的風(fēng)險(xiǎn)。在這些場景中,如何把多套體系并到一套里,提供更實(shí)時(shí)性更高,成本更節(jié)約,效率更高的數(shù)據(jù)架構(gòu)方案,這正是OceanBase在做的。除了多負(fù)載外,多模態(tài)的融合也是類似的。KV模型是最常見的數(shù)據(jù)模型,HBase里大寬表和Redis里的KV緩存應(yīng)用極為廣泛,這些場景往往是受制于原來TP庫的一些限制,復(fù)制了一份數(shù)據(jù)出去,做緩存加速或者是多維數(shù)據(jù)的存儲(chǔ)和分析,如今在TP分布式數(shù)據(jù)庫在同一個(gè)底座上可以通過增加一個(gè)接口就能實(shí)現(xiàn)一樣的效果,省去了增加一個(gè)數(shù)據(jù)庫的成本開銷和復(fù)雜度開銷簡化了技術(shù)棧,而且數(shù)據(jù)會(huì)更一致,更實(shí)時(shí)。當(dāng)然,即便是單獨(dú)用于 KV 場景,在部署和運(yùn)維上也是更加簡單的。
另一個(gè)場景是在融入AI的能力下,能融合更多類型的數(shù)據(jù)進(jìn)行智能查詢。AI與SQL結(jié)合主要是兩個(gè)方面,一個(gè)是AI for DB,一個(gè)是 DB for AI,前者是指在 AI 的助力下,運(yùn)維和SQL查詢是否能更智能,在這LLM出來后有了更多的探索空間,比如結(jié)合AI的智能提示和優(yōu)化,如何在 SQL 的編輯器中更高效的寫出優(yōu)雅,精準(zhǔn)的SQL語句,如何結(jié)合很多診斷分析的知識、決策模型和數(shù)據(jù)來在SQL的問題診斷中給出更準(zhǔn)確的問題分析,甚至如何用AI來做資源管理,這些都是目前我們在探索的,這個(gè)今天不展開。另一個(gè)方向是看數(shù)據(jù)庫能為AI的場景做什么?現(xiàn)在最流行的就是向量數(shù)據(jù)庫,是AI時(shí)代最關(guān)鍵的數(shù)據(jù)存儲(chǔ),是將物理世界轉(zhuǎn)化成數(shù)字世界多維度描述的數(shù)據(jù)模型,這種模式非常適合計(jì)算機(jī)認(rèn)知、對比和計(jì)算,尤其對非結(jié)構(gòu)化的圖像、視頻、音頻數(shù)據(jù),因?yàn)锳I能力的提升,使得對這些數(shù)據(jù)的理解的準(zhǔn)確性極大的提升,從而反過來促進(jìn)越來越多場景會(huì)融入向量數(shù)據(jù)。相比于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)的描述和處理,向量模型的描述并非精確,也更多用于非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),但有時(shí)候這種描述更符合與人類的交互的習(xí)慣,比如這東西看起來不錯(cuò),看起來很像,更多人喜歡……這些都不是精確的描述。有了這種能力,很多的業(yè)務(wù)的場景以及跟人的交互會(huì)變得更加自然,更能結(jié)合結(jié)構(gòu)化的精確的信息和非結(jié)構(gòu)化的模糊的描述來表達(dá)和處理數(shù)據(jù)。我們來看這樣一個(gè)場景:查詢離我最近的,評分四分以上的奶茶店中評價(jià)最好的,且價(jià)格實(shí)惠近期熱銷的奶茶。離我最近是GIS信息,一種地理位置的結(jié)構(gòu)化描述,而“評價(jià)最好“可能會(huì)是一個(gè)非常綜合的數(shù)據(jù)匯總出來的結(jié)果,可能有文本,有客戶上傳的視頻和圖片,也有結(jié)構(gòu)化的打分,還能還會(huì)有語音評價(jià),可以將這些信息做向量化處理做一個(gè)綜合的評價(jià);價(jià)格實(shí)惠且熱銷這些就是實(shí)時(shí)的銷量分析和庫存查詢了,是典型的OLTP的范疇。這樣一個(gè)場景往往需要2~3種存儲(chǔ)系統(tǒng)相互配合,但今天我們可以通過一種存儲(chǔ)系統(tǒng)就搞定,這是我們在分布式的底座上加入更多的能力,甚至加入向量化的能力帶來的結(jié)果。而目前向量的存儲(chǔ)將越來越廣泛的應(yīng)用在AI Native 的場景中,而且往往是需要跟其它結(jié)構(gòu)化的存儲(chǔ)配合使用才能有更大的價(jià)值。OceanBase通過插件化的機(jī)制將螞蟻內(nèi)部在人臉支付和安全風(fēng)控下孵化出來的向量庫VSAG融入到了分布式數(shù)據(jù)庫的存儲(chǔ)引擎中,達(dá)到了強(qiáng)強(qiáng)聯(lián)合的效果。一方面OceanBase的底座本身對于存在這種數(shù)據(jù)量較大的數(shù)據(jù)有很大的性價(jià)比優(yōu)勢和擴(kuò)展性優(yōu)勢,而這個(gè)向量類庫的算法也是在螞蟻?zhàn)陨淼暮A繕I(yè)務(wù)場景打磨的產(chǎn)物,跟OceanBase在雙十一打磨一樣,經(jīng)受了苛刻且持續(xù)的打磨。這里暫時(shí)先不展開介紹了,我們會(huì)在下個(gè)月的發(fā)布會(huì)中正式發(fā)布這個(gè)能力,敬請期待,這個(gè)類庫本身是獨(dú)立發(fā)展且開源的,大家如果感興趣可以下載來研究。
還有一種一體化體現(xiàn)在異構(gòu)基礎(chǔ)設(shè)施上靈活部署的多云原生能力。上云是一個(gè)明確的方向,云原生也是上云后架構(gòu)層面上的最佳實(shí)踐,云的本質(zhì)是資源的池化和超賣,而云原生架構(gòu)的本質(zhì)是如何充分利用池化資源的基礎(chǔ)件:計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)來構(gòu)建上層應(yīng)用,而不只是用了個(gè)容量固定的虛機(jī)。而多云原生的本質(zhì)是在遵循云原生架構(gòu)的基礎(chǔ)上,做到底座異構(gòu)性、無關(guān)性,以及用戶對開發(fā)者體驗(yàn)的一致性。我們正在跟一個(gè)全球知名的快消品客戶合作,他們有上千家門店都運(yùn)行在一朵云上運(yùn)行,但今天的業(yè)務(wù)要求更高,也許這幾千家門店碰到極端的情況下,有可能停服,這是企業(yè)無法接受的。但即便是云出了問題,應(yīng)該是局部區(qū)域,如果在異構(gòu)的朵云上建了10:1的容災(zāi)集群,確保一個(gè)云出問題時(shí)可以很快切換到另一個(gè)云上,確保一個(gè)云單獨(dú)的機(jī)房出問題時(shí),1/10的流量承接得祝OceanBase在這方面可以平滑無感的幫助大家解決這樣的問題。在整個(gè)架構(gòu)上,如何做到一體化,對上對下對于整個(gè)應(yīng)用,提供現(xiàn)代化架構(gòu)的能力,這是確定性的方向,也是這種多云原生架構(gòu)的數(shù)據(jù)底座提供的價(jià)值。我們相信,多云原生一體化數(shù)據(jù)庫 必將助力更多企業(yè)構(gòu)建現(xiàn)代數(shù)據(jù)架構(gòu),解決更多的實(shí)際需求。
這里,快速分享幾個(gè)我們正在做的案例。我們在金融、政企方向有大量的客戶累計(jì)。對于OceanBase來說,過去十年在互聯(lián)網(wǎng)的高速發(fā)展,得以在這個(gè)大的命題下,生長出一個(gè)新的底座。今天這些場景,是幫我們把上半場打磨出來的技術(shù),做成一個(gè)商業(yè)產(chǎn)品的好機(jī)會(huì)。這不僅是數(shù)據(jù)架構(gòu)中最為關(guān)鍵的場景,也是人們生活中最關(guān)鍵的場景。OceanBase本身的高性能、高可用和穩(wěn)定性可以很好的支撐銀行、運(yùn)營商等行業(yè)的核心場景,但如何讓這些傳統(tǒng)的架構(gòu)比較平滑的遷移到新的底座,我們做了大量的工作,在對Oracle、MySQL的兼容,遷移和并跑的體系上打造了完善的能力。目前有近百家銀行和大量的頭部保險(xiǎn)、證券公司的系統(tǒng)遷移到了OceanBase上,資產(chǎn)超萬億的銀行已經(jīng)超過了20家,超過1/3的機(jī)構(gòu)已經(jīng)或者正在開始用OceanBase來升級他們的核心系統(tǒng)。在運(yùn)營商行業(yè),我們支持的幾個(gè)大的省份已經(jīng)覆蓋了全國3/5的客戶了。很多政企和金融客戶沒有想到的是,OceanBase這種新的架構(gòu),不僅提升了擴(kuò)展性和可靠性,還通過高性價(jià)比的壓縮技術(shù)、多租戶技術(shù)等使得新架構(gòu)下計(jì)算和存儲(chǔ)的硬件成本反而更低,整體TCO下降20%~30%,存儲(chǔ)成本下降60%~70%。比如交行在從大機(jī)和DB2遷移到云和分布式數(shù)據(jù)庫的過程中,整個(gè)擴(kuò)展性得到極大的提升,具備按需線性擴(kuò)容的能力,更從容的應(yīng)對日常的小型業(yè)務(wù)的大促,也讓每日的批處理作業(yè)從十幾個(gè)小時(shí)縮短到1~2個(gè)小時(shí),通過分布式架構(gòu)充分發(fā)揮出系統(tǒng)的并行能力。在走進(jìn)千行百業(yè)的過程中,我們觀察到一個(gè)現(xiàn)象,在數(shù)字化轉(zhuǎn)型的上半場,大家都在復(fù)制互聯(lián)網(wǎng)架構(gòu),互聯(lián)網(wǎng)技術(shù)很好,但比較百花齊放,每一種技術(shù)都能在特定場景很好的解決特定問題,但整體能配合協(xié)調(diào)好并不是件容易的事情,需要投入不少的人力和精力。但互聯(lián)網(wǎng)的規(guī)模效應(yīng)使得這樣的投入變得可能,其ROI也值得為此投入一個(gè)不小的Infra團(tuán)隊(duì)來開發(fā)和維護(hù)這些技術(shù),甚至可以外溢孵化出像云計(jì)算平臺(tái),數(shù)據(jù)庫這樣的底層技術(shù)產(chǎn)品。但在其它行業(yè)落地的時(shí)候,這些技術(shù)的復(fù)雜度帶來的成本和效率上的問題會(huì)變得尤為顯性化,使用這些技術(shù)紅利的同時(shí)也承受著它的復(fù)雜度和多樣化,云計(jì)算通過Service的方式解決了一部分,而在數(shù)據(jù)層我們也逐步意識到用一體化化的數(shù)據(jù)架構(gòu)來抵消這種復(fù)雜度會(huì)是一個(gè)正確的方向。我們開始嘗試用一體化的方式,既在解決上半場由于“分”帶來的問題,屏蔽掉“分”的復(fù)雜度,保留分布式帶來的技術(shù)紅利。同時(shí)也為企業(yè)迎戰(zhàn)數(shù)字化下半場做好準(zhǔn)備,讓數(shù)據(jù)有機(jī)的“融合”在一起,讓數(shù)據(jù)的管理更簡單,洞察更高效,為DATA+AI時(shí)代更好的挖掘數(shù)據(jù)的價(jià)值,提供一個(gè)更高效的底座。
OceanBase非常幸運(yùn),趕上了時(shí)代發(fā)展的紅利。而數(shù)據(jù)庫的發(fā)展在經(jīng)歷由“合”到“分”,再由“分”到“合”的演進(jìn)過程。過去十年,第一個(gè)階段數(shù)據(jù)架構(gòu)面臨的問題更多體現(xiàn)在“多”和“分”兩個(gè)關(guān)鍵字上,比如說場景多、數(shù)據(jù)多、引擎多,我們通過分布式解決這些問題。在計(jì)算架構(gòu)上有流、有批。在數(shù)據(jù)存儲(chǔ)上有多樣化的數(shù)據(jù),但復(fù)雜度非常高,尤其是在AI時(shí)代,深度的處理和高效處理這些數(shù)據(jù)的代價(jià)是比較高的。同時(shí),對于千行百業(yè)來說駕馭和管理的成本也比較高,所以自然而然架構(gòu)就慢慢的走向了“合”的過程。在AI新時(shí)代上,體現(xiàn)出兩個(gè)關(guān)鍵詞,一個(gè)詞是“融合“,前面的這些數(shù)據(jù)結(jié)構(gòu)已經(jīng)穩(wěn)定了,哪一種最適合描述物理世界的什么場景,優(yōu)劣勢是什么,都有非常豐富的最佳實(shí)踐了,但如何在一個(gè)底座上解決大部分的問題,這是新的命題。在計(jì)算架構(gòu)上,無論是流還是批,這些處理的范式已經(jīng)比較成熟,但流批一體甚至是融入圖計(jì)算后的一體化計(jì)算框架如何實(shí)現(xiàn),哪一種方式效果最好,還是一個(gè)在持續(xù)探索和迭代的命題。但無論是存儲(chǔ)還是計(jì)算,都在往一體化的方向發(fā)展,這就是最大的共性,是分久必合的趨勢。第二個(gè)詞是AI,AI提升了計(jì)算機(jī)對數(shù)據(jù)的理解力,擴(kuò)展了能夠處理的數(shù)據(jù)類型,極大增強(qiáng)了數(shù)據(jù)的處理效率。這三個(gè)方面在非結(jié)構(gòu)化數(shù)據(jù)上尤為明顯,比如圖片、視頻、聲音,而這些也是物理世界轉(zhuǎn)換到數(shù)字世界最快最原始的方式,一但這些數(shù)據(jù)能被快速處理和挖掘價(jià)值,數(shù)字化的進(jìn)程會(huì)進(jìn)入快進(jìn)模式。而AI能力的加持和這些需求的爆發(fā),會(huì)進(jìn)一步促進(jìn)計(jì)算架構(gòu)和數(shù)據(jù)架構(gòu)走向一體化。未來,如何讓一體化架構(gòu)更優(yōu)雅、更簡單,是我們這些數(shù)據(jù)服務(wù)商不斷探索的命題。而如何在融合一體化的架構(gòu)之上,更好地用AI賦能的方式,挖掘數(shù)據(jù)的價(jià)值,并賦能業(yè)務(wù),是每一位企業(yè)家和CIO們,都要思考和解決的大命題。