近期,《晶報》探訪并對深圳計算科學(xué)研究院進(jìn)行了特別報道。深算院YashanDB技術(shù)總監(jiān)歐偉杰接受采訪,介紹了深算院的原創(chuàng)基礎(chǔ)研究成果和人才體系,以及全自研國產(chǎn)數(shù)據(jù)庫YashanDB在智慧城市數(shù)字孿生場景的應(yīng)用推廣,以下為部分報道內(nèi)容。
三款核心產(chǎn)品的名字,源自南宋三場戰(zhàn)事
但凡專業(yè)且抽象的事物,表述總會擔(dān)心太過于晦澀難懂,于是,先說一個大家都懂的詞:“卡脖子”。是的,相信這幾年,大家對這幾個字再熟悉不過了。
2019年4月13日,深算院在深圳大學(xué)揭牌成立,重點研究大數(shù)據(jù)領(lǐng)域方向的計算科學(xué)基礎(chǔ)理論,把原創(chuàng)理論落地轉(zhuǎn)化為實用系統(tǒng),致力打造中國原創(chuàng)的基礎(chǔ)軟件民族品牌。截至目前,該院已開發(fā)并落地三款全自研的戰(zhàn)略性基礎(chǔ)軟件產(chǎn)品崖山數(shù)據(jù)庫系統(tǒng)、采石磯數(shù)據(jù)質(zhì)量系統(tǒng)、釣魚城數(shù)據(jù)分析系統(tǒng),并在多個重點行業(yè)領(lǐng)域落地應(yīng)用。
數(shù)據(jù)庫是什么?通俗理解,它是“放數(shù)據(jù)的倉庫”。當(dāng)信息世界里的數(shù)據(jù)處理量大了,就要對“倉庫”進(jìn)行有序管理。此前,國內(nèi)同行產(chǎn)品紛紛“站在巨人肩膀上”,在國外軟件企業(yè)提供的開源代碼上進(jìn)行再開發(fā),加快產(chǎn)品上市速度,而深算院堅持自主研發(fā),一步一個腳印。
數(shù)據(jù)庫系統(tǒng)可以稱為軟件里的“重工業(yè)”,自主研發(fā)門檻高、周期長。為什么要堅持自主研發(fā)呢?基礎(chǔ)研究處于從研究到應(yīng)用、再到生產(chǎn)的科研鏈條起始之端,是科技創(chuàng)新的源頭,更是整個科學(xué)體系的源頭。深算院深知關(guān)鍵核心技術(shù),更是要不來、買不來、討不來的。加強(qiáng)基礎(chǔ)研究,從源頭解決關(guān)鍵技術(shù)問題,才能打好科技自立自強(qiáng)主動仗。
深算院崖山數(shù)據(jù)庫技術(shù)總監(jiān)歐偉杰列舉了一個形象的例子:“如果我們將基礎(chǔ)軟件看做一棵‘樹’,那么開源代碼就是一棵‘樹苗’,在開源基礎(chǔ)上開發(fā)相當(dāng)于把它‘移栽’過來,它的品種是什么以及未來生長的樹冠有多大、能覆蓋多大的面積,這是它基因里自帶的,我們無法通過‘修剪’去改造它。但我們自己研發(fā),就相當(dāng)于自己去培育一個品種,我們可以決定它的基因,比如它的根扎多深、未來樹冠有多大,這都是我們自己可以控制的!睔W偉杰表示:“目前的一些具體應(yīng)用走開源代碼的道路是沒問題的,但在基礎(chǔ)軟件上,我們堅持用‘笨辦法’,從自己開始做研發(fā),希望它能夠走得更遠(yuǎn),哪怕它的時間長一點!
深算院崖山數(shù)據(jù)庫技術(shù)總監(jiān)歐偉杰接受記者采訪
正如印刻在深算院標(biāo)志中的口號“‘VENI VIDI VICI’(我來,我見,我征服)”那樣,深算院的初衷是“征服數(shù)據(jù),做改變世界的一些事情”。
深算院標(biāo)志中心圍繞著深算院口號“VENI VIDI VICI”(我來,我見,我征服)
這樣的精神同樣體現(xiàn)在深算院的產(chǎn)品上。據(jù)介紹,“崖山”“采石磯”“釣魚城”均由深算院首席科學(xué)家根據(jù)南宋三場保家衛(wèi)國之戰(zhàn)命名。其中,“崖山”以歷史上宋元海戰(zhàn)發(fā)生地為名,意在賡續(xù)崖山的民族氣節(jié)和風(fēng)骨,“采石磯”之戰(zhàn)講的是以少勝多的歷史典故,希望繼承迎難而上的膽識豪情,“釣魚城”代表的是對抗外敵時的堅持頑強(qiáng),是致敬不屈的先賢。通過三個典故,意在國產(chǎn)基礎(chǔ)軟件面臨強(qiáng)大挑戰(zhàn)的情況下實現(xiàn)全自研的技術(shù)和系統(tǒng),在數(shù)據(jù)庫領(lǐng)域重鑄華夏輝煌,為數(shù)據(jù)管理世界性難題提供中國答案,憑借數(shù)據(jù)分析領(lǐng)域領(lǐng)先的技術(shù)實力改變世界大數(shù)據(jù)的發(fā)展格局。
500人團(tuán)隊,研發(fā)人員近八成
基礎(chǔ)研究既是一次科學(xué)家滿懷好奇心的探索之旅,也是一場“你有我無、我快你無”的激烈競爭。在這場全球參與的探索中,深算院的成績斐然。
引人注目的崖山數(shù)據(jù)庫系統(tǒng),融入了原創(chuàng)的有界計算理論、近似計算理論、并行可擴(kuò)展理論和跨模融合計算理論,實現(xiàn)國產(chǎn)高端數(shù)據(jù)庫“從0到1”的全自研突破,經(jīng)權(quán)威機(jī)構(gòu)檢測,內(nèi)核代碼自主率100%,從核心理論到關(guān)鍵系統(tǒng)均為中國原創(chuàng)、性能指標(biāo)國際領(lǐng)先,成為國內(nèi)率先實現(xiàn)自主可控技術(shù)突破的數(shù)據(jù)庫系統(tǒng)之一。歐偉杰告訴記者,崖山數(shù)據(jù)庫系統(tǒng)實現(xiàn)了從底層理論到系統(tǒng)工程的全鏈條基礎(chǔ)軟件研發(fā),真正掌握核心技術(shù)。
加強(qiáng)基礎(chǔ)研究,歸根到底要靠高水平人才。作為一個有產(chǎn)品能力的基礎(chǔ)研究機(jī)構(gòu),深算院利用多重渠道開展全球引才,在吸引人才時就注重吸收科學(xué)家和工程師。“最開始,崖山數(shù)據(jù)庫系統(tǒng)的團(tuán)隊人員不到10人。隨著系統(tǒng)起步,我們不斷搭建團(tuán)隊,通過社招找到一些志同道合且具有豐富經(jīng)驗的業(yè)界專家,并通過校招吸納青年人才,邀請他們一起來做產(chǎn)品,更重要的是通過成型的培訓(xùn)體系培養(yǎng)數(shù)據(jù)庫人才。利用我們的培訓(xùn)體系對應(yīng)屆生或沒有接觸過數(shù)據(jù)庫的人進(jìn)行培訓(xùn),引導(dǎo)他們上崗后不斷學(xué)習(xí),2至3年的時間,讓他們能夠承擔(dān)一些任務(wù)。我們希望深圳能培養(yǎng)和吸引更多有志從事基礎(chǔ)軟件的年輕人才,讓更多人了解到行業(yè)發(fā)展的前景和機(jī)遇!睔W偉杰說。
崖山數(shù)據(jù)庫團(tuán)隊日常討論
目前,崖山數(shù)據(jù)庫系統(tǒng)已擁有300余人規(guī)模的老中青梯次結(jié)構(gòu)的團(tuán)隊,深算院已建立起500人規(guī)模團(tuán)隊,其中研發(fā)人員占比近八成,匯聚了一批優(yōu)秀青年科學(xué)家和工程實力媲美硅谷的系統(tǒng)開發(fā)人才,包括英國皇家學(xué)會院士1人、中國科學(xué)院院士2人、深圳市杰出人才1人、海外高層次人才5人、長江學(xué)者1人。值得一提的是首席科學(xué)家樊文飛院士于2019年當(dāng)選為中國科學(xué)院外籍院士,2023年當(dāng)選英國皇家工程院院士,他也是英國皇家學(xué)會計算機(jī)領(lǐng)域的唯一華裔科學(xué)家。
深算院展廳榮譽(yù)墻
五年來,深算院在SIGMOD、VLDB、ICDE、TODS等國際頂級期刊/會議發(fā)表/錄用論文100余篇(含CCF A類超90篇),申請專利/PCT共141項,理論研究成果產(chǎn)出比肩全球任何一支大數(shù)據(jù)學(xué)術(shù)團(tuán)隊。
“數(shù)字孿生城市平臺”讓城市管理更精細(xì)化、智慧化
帶著刻板印象,記者還是忍不住問:為何研究院會選址在商圈的一隅?歐偉杰笑著說,大眾一般認(rèn)為做研究的人喜歡“閉關(guān)修煉”,但其實深算院不僅要做研究,還要做產(chǎn)品。龍華科技創(chuàng)新中心位于配套設(shè)施完善的商圈內(nèi),這給予了深算院工作人員極大便利。例如,深圳北站的地理和交通優(yōu)勢,為深算院提供了便捷的區(qū)域連接和人員流動條件。同時,深圳北站龍華科創(chuàng)布局已經(jīng)形成了強(qiáng)大的企業(yè)聚集效應(yīng),這有助于深算院在技術(shù)研發(fā)、項目合作以及人才培養(yǎng)等方面與周邊企業(yè)形成良性互動,推動科技創(chuàng)新成果的快速轉(zhuǎn)化。
一項重大原始創(chuàng)新背后離不開“板凳坐得十年冷”的堅持,而其背后穩(wěn)定的支持機(jī)制和投入,正是“冷板凳”加溫的熱源。深圳市政府通過專項資金扶持,為深算院的科研項目提供了必要的資金保障,確保了研發(fā)工作的順利進(jìn)行。龍華區(qū)政府則提供場地等資源支持,有效解決了深算院在硬件設(shè)施方面的后顧之憂。
“在團(tuán)隊拓展初期,我們?nèi)W(xué)校校招,有的同學(xué)反饋沒有食堂,龍華區(qū)政府了解到這一信息后,迅速在樓里建立了一個共享食堂,非常及時地解決了員工餐食的現(xiàn)實問題!
隨著區(qū)域數(shù)字化發(fā)展的基礎(chǔ)越來越扎實,計算能力越來越突出,龍華區(qū)立足數(shù)字經(jīng)濟(jì)、數(shù)字城區(qū)、數(shù)字治理“三位一體”數(shù)字龍華建設(shè)實際,2023年11月,推出了全國首創(chuàng)“全域全信創(chuàng)”數(shù)字孿生城市平臺。該平臺基于鯤鵬處理器、銀河麒麟操作系統(tǒng)等國產(chǎn)軟硬件環(huán)境,采用全自研國產(chǎn)數(shù)據(jù)庫崖山數(shù)據(jù)庫提供事務(wù)一致性、復(fù)雜查詢以及空間數(shù)據(jù)支持等能力,對接國產(chǎn)數(shù)字孿生引擎(SS Engine),為政務(wù)、住建、教育、醫(yī)療、應(yīng)急指揮等關(guān)鍵領(lǐng)域提供了強(qiáng)大的數(shù)字化、智能化支撐,推動城市治理向智能化、精細(xì)化、高效化等方面全面發(fā)展,助力打造決策更科學(xué)、管理更精細(xì)的先鋒城市。
歐偉杰進(jìn)一步解釋:“將建筑、道路、植被、水域、地下管廊等城市信息進(jìn)行數(shù)字化以后,我們就得到了一個數(shù)字孿生城市,也就是一個與真實世界一模一樣的數(shù)字虛擬城市,我們可以在這個虛擬城市中進(jìn)行模擬、預(yù)判,以數(shù)字賦能助推城市精細(xì)化、智慧化管理!彼e例說:“近期深圳降雨較多,且偶爾出現(xiàn)瞬時降雨較大的極端情況,那么我們可以在出現(xiàn)類似降雨情況后,在數(shù)字孿生城市平臺利用采集的數(shù)據(jù)和地理空間信息,從而迅速判斷出哪個路口或涵洞可能出現(xiàn)積水,快速協(xié)調(diào)相應(yīng)的政府部門前往現(xiàn)場進(jìn)行處置,還可以通過導(dǎo)航提醒居民群眾經(jīng)過那段路的時候,可能會出現(xiàn)積水。如果是傳統(tǒng)的方式,那么就需要人工對每一個路段進(jìn)行排查!
龍華區(qū)服務(wù)人口已接近300萬,人口密度達(dá)到2.19萬人/平方公里,遠(yuǎn)高于深圳全市8791人/平方公里的平均水平;龍華區(qū)數(shù)字孿生平臺的總數(shù)據(jù)量高達(dá)3.6+億條,還需支持1000并發(fā)訪問以及二三維數(shù)據(jù)的管理和融合查詢,這無疑對國產(chǎn)時空數(shù)據(jù)庫統(tǒng)一管理的能力提出了極高的要求。崖山數(shù)據(jù)庫團(tuán)隊?wèi){借關(guān)鍵技術(shù)的突破與轉(zhuǎn)化,在解決數(shù)字孿生背景下如何在數(shù)據(jù)庫中實現(xiàn)高效查詢與分析計算的問題方面,取得了階段性的突破,為支撐龍華區(qū)數(shù)字孿生平臺提供強(qiáng)大底層數(shù)據(jù)管理能力。龍華區(qū)數(shù)字孿生平臺整合了全區(qū)的三維空間模型,匯集并融合了多源異構(gòu)的城市運(yùn)行全要素數(shù)據(jù),為區(qū)內(nèi)社會治理動態(tài)監(jiān)測、預(yù)警、評估提供便捷高效、動態(tài)實時、精準(zhǔn)可靠的信息服務(wù)。
城市數(shù)據(jù)的使用是一項創(chuàng)新性工作,在按下“快進(jìn)鍵”的同時,也要系好“安全帶”。面向智慧城市數(shù)字孿生,崖山數(shù)據(jù)庫提供安全強(qiáng)大的空間數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)管理和計算能力。當(dāng)前國際形勢復(fù)雜多變,自主知識產(chǎn)權(quán)的核心技術(shù)可以避免對外部技術(shù)的依賴,完全把握技術(shù)方向,真正做到把信息安全的“房子建在自家地基上”。
數(shù)字化轉(zhuǎn)型,更廣闊的應(yīng)用場景
崖山數(shù)據(jù)庫始終致力于解決關(guān)鍵技術(shù)“卡脖子”難題,助力政府、國企央企的數(shù)字化轉(zhuǎn)型,在各行各業(yè)的應(yīng)用遍地開花。
據(jù)介紹,目前,崖山數(shù)據(jù)庫系統(tǒng)已兼容適配國內(nèi)主流軟硬件生態(tài)環(huán)境,在金融、政企、能源、交通、大型央國企集團(tuán)、線上零售等領(lǐng)域進(jìn)行了深度的應(yīng)用和推廣。以能源領(lǐng)域為例,深圳燃?xì)饧瘓F(tuán)的客戶信息管理系統(tǒng)原先采用某國外主流數(shù)據(jù)庫系統(tǒng),面臨著數(shù)據(jù)量大、擴(kuò)展困難,運(yùn)維低效等問題,后選用崖山數(shù)據(jù)庫系統(tǒng)實現(xiàn)無縫遷移,性能和成本方面均取得了明顯收益。
值得一提的是,深算院與深智城、長亮科技、迪思杰DSG等應(yīng)用廠商聯(lián)合,基于崖山數(shù)據(jù)庫系統(tǒng)打造智慧城市、金融核心、空間數(shù)據(jù)管理以及數(shù)據(jù)交互等行業(yè)數(shù)據(jù)管理解決方案,為重點行業(yè)不同核心場景提供數(shù)字化轉(zhuǎn)型保障。
數(shù)字經(jīng)濟(jì)事關(guān)國家發(fā)展大局。在推動經(jīng)濟(jì)高質(zhì)量發(fā)展、建設(shè)現(xiàn)代化產(chǎn)業(yè)體系的實踐中,深圳市具有強(qiáng)大產(chǎn)業(yè)優(yōu)勢,擁有眾多國際性數(shù)字經(jīng)濟(jì)知名企業(yè)、一流的第三方專業(yè)服務(wù)機(jī)構(gòu),在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展上擁有強(qiáng)大的產(chǎn)業(yè)優(yōu)勢。大數(shù)據(jù)作為現(xiàn)代產(chǎn)業(yè)發(fā)展的關(guān)鍵要素,其在深圳這樣的先鋒高科技城市中的作用尤為顯著。
要激活大數(shù)據(jù)新質(zhì)生產(chǎn)力,歐偉杰表示,首先需要解決數(shù)據(jù)孤島和碎片化問題。當(dāng)前,各業(yè)務(wù)系統(tǒng)間的數(shù)據(jù)共享存在障礙,導(dǎo)致數(shù)據(jù)資源不能有效整合和利用,市民在辦理業(yè)務(wù)時,常常出現(xiàn)“由于單位之間的數(shù)據(jù)不互通,業(yè)務(wù)無法辦理”的情況。針對這個問題,崖山自主研發(fā)攻克異構(gòu)數(shù)據(jù)有界加速技術(shù),可以通過崖山數(shù)據(jù)庫直接訪問原有的大數(shù)據(jù)生態(tài)系統(tǒng),并基于有界計算實現(xiàn)查詢加速,通過“融通、集成、協(xié)同、再造”打造“整體政府”,將“信息孤島”聯(lián)結(jié)為“數(shù)據(jù)大陸”,使數(shù)據(jù)共享更通暢、協(xié)同更高效。
數(shù)據(jù)質(zhì)量問題也制約大數(shù)據(jù)潛能釋放。歐偉杰進(jìn)一步介紹:“大數(shù)據(jù)作為新的生產(chǎn)要素,被稱為數(shù)字時代的‘石油’。當(dāng)前數(shù)據(jù)有兩個方面的問題:一是質(zhì)量比較差,因為大模型的訓(xùn)練除了需要大量的算力以外,還需要質(zhì)量相對較高的語料,而現(xiàn)在普遍是由人工打標(biāo)簽、標(biāo)注的方式來提升它的質(zhì)量,成本高昂,效率低下,且數(shù)據(jù)質(zhì)量參差不齊。在深算院,我們的采石磯系統(tǒng)就嘗試通過結(jié)合人工智能和一些邏輯的方式,自動對語料打標(biāo)簽,在降低成本的同時,還能提高標(biāo)注的準(zhǔn)確性和一致性,從而提升數(shù)據(jù)的整體質(zhì)量。這就好比數(shù)據(jù)是‘原油’,系統(tǒng)對其‘提煉’,形成標(biāo)號的‘汽油’,才能滿足特定需求。”
基礎(chǔ)研究與系統(tǒng)研發(fā)并駕齊驅(qū)
數(shù)據(jù)多樣性導(dǎo)致的融合計算挑戰(zhàn)也不容忽視。深算院在跨模態(tài)融合計算方面進(jìn)行了深入研究,旨在解決不同類型數(shù)據(jù)的整合和分析問題。通過跨模融合計算,可以實現(xiàn)面向多模數(shù)據(jù)的統(tǒng)一融合查詢能力,以及實現(xiàn)更深層次的數(shù)據(jù)挖掘和知識發(fā)現(xiàn),充分激活多源異構(gòu)數(shù)據(jù)價值。
深算院正在朝著建設(shè)世界一流的計算科學(xué)基礎(chǔ)研究機(jī)構(gòu)的目標(biāo),在以新模式和新速度高速穩(wěn)健發(fā)展。與此同時,深算院也大力推動基礎(chǔ)軟件產(chǎn)業(yè)生態(tài)繁榮發(fā)展,助力科技強(qiáng)國和數(shù)字中國建設(shè)。2023年11月,崖山數(shù)據(jù)庫系統(tǒng)正式推出被稱為數(shù)據(jù)領(lǐng)域技術(shù)“制高點”的共享集群技術(shù),在高可用性、高擴(kuò)展性、高性能等方面取得了突破,為國產(chǎn)數(shù)據(jù)庫在金融、運(yùn)營商等國計民生領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。
歐偉杰表示,未來,深算院將繼續(xù)堅持基礎(chǔ)研究與系統(tǒng)研發(fā)并駕齊驅(qū)的創(chuàng)新模式,踐行“四個面向”戰(zhàn)略方向,集聚力量進(jìn)行原創(chuàng)性引領(lǐng)性科技攻關(guān),致力于打造自主可控的國產(chǎn)基礎(chǔ)軟件產(chǎn)品,以“AI+”賦能培育新質(zhì)生產(chǎn)力,以科技創(chuàng)新為驅(qū)動,積極與大數(shù)據(jù)產(chǎn)業(yè)鏈上下游公司開展深度合作,共同推動原創(chuàng)基礎(chǔ)研究成果的產(chǎn)業(yè)化落地,全力服務(wù)深圳市“基礎(chǔ)研究+技術(shù)攻關(guān)+成果產(chǎn)業(yè)化+科技金融”全過程創(chuàng)新生態(tài)鏈,助力數(shù)字中國建設(shè)戰(zhàn)略的實現(xiàn),努力為國家高水平科技自立自強(qiáng)貢獻(xiàn)力量。