“大模型堪稱強(qiáng)悍,但仍存在成本、可解釋性、精度乃至幻覺等問題。行業(yè)大模型固然算力要求較低,但對(duì)精度、魯棒性和攻擊防御要求更高,很多問題還有待研究!痹2024開放原子開發(fā)者大會(huì)暨首屆開源技術(shù)學(xué)術(shù)大會(huì)上,中國(guó)科學(xué)院外籍院士樊文飛針對(duì)當(dāng)前AI大模型發(fā)展的挑戰(zhàn)分享了自己的實(shí)踐與思考:將邏輯推理與機(jī)器學(xué)習(xí)相結(jié)合,并在訓(xùn)練階段加強(qiáng)數(shù)據(jù)質(zhì)量。
這場(chǎng)主題為“一切為了開發(fā)者”的大會(huì),匯集了開源技術(shù)領(lǐng)域眾多專家、學(xué)者和從業(yè)者,通過1場(chǎng)開幕式和18場(chǎng)分論壇,共同探討了開源技術(shù)在當(dāng)前AI時(shí)代最新進(jìn)展、實(shí)踐經(jīng)驗(yàn)與創(chuàng)新成果、面臨的挑戰(zhàn)以及未來發(fā)展。
樊文飛院士的報(bào)告聚焦于AI與數(shù)據(jù),事實(shí)上生成式AI已經(jīng)影響到軟件應(yīng)用開發(fā)的方方面面,本次大會(huì)覆蓋了操作系統(tǒng)、數(shù)據(jù)庫(kù)、編程語言、開源大模型、前端及低代碼等領(lǐng)域,相關(guān)前沿議題表明,開源不僅是當(dāng)前軟件科技創(chuàng)新的主流,而且正在對(duì)大模型開發(fā)及應(yīng)用涉及的各技術(shù)領(lǐng)域創(chuàng)新產(chǎn)生深遠(yuǎn)的影響。
開源操作系統(tǒng):數(shù)字化轉(zhuǎn)型與智能生活兩手抓
操作系統(tǒng)是基礎(chǔ)軟件領(lǐng)域創(chuàng)新繞不開的話題,而隨著數(shù)字化轉(zhuǎn)型的加速,開源操作系統(tǒng)在構(gòu)建現(xiàn)代IT架構(gòu)中扮演著越來越重要的角色。作為由開放原子開源基金會(huì)孵化及運(yùn)營(yíng)的重量級(jí)操作系統(tǒng)開源項(xiàng)目,開源鴻蒙(OpenHarmony)聚焦于搭建一個(gè)智能終端設(shè)備操作系統(tǒng)的框架和平臺(tái),促進(jìn)萬物互聯(lián)產(chǎn)業(yè)的繁榮發(fā)展,而開源鴻蒙的影響不僅僅是智能生活。
在本次大會(huì)上,開源鴻蒙5.0 Release版本正式發(fā)布,社區(qū)代表深入介紹了該版本在系統(tǒng)完備度、分布式創(chuàng)新、開發(fā)者體驗(yàn)及系統(tǒng)穩(wěn)定性方面的顯著提升,還展示了如何賦能產(chǎn)業(yè)創(chuàng)新升級(jí)和數(shù)字化轉(zhuǎn)型。
開源鴻蒙5.0 Release版本首先可支持各類超級(jí)應(yīng)用的開發(fā),分布式軟總線再升級(jí),設(shè)備連接效率和穩(wěn)定性持續(xù)提升;其次多任務(wù)處理更高效,設(shè)備間的數(shù)據(jù)共享更加安全便捷;此外提供更友好的開發(fā)環(huán)境,加速應(yīng)用開發(fā)進(jìn)程。開源鴻蒙項(xiàng)目在開放原子開源基金會(huì)平臺(tái)之上持續(xù)面向社區(qū)開放共建,超過120款芯片完成適配,超過900款軟硬件產(chǎn)品通過兼容性測(cè)評(píng)。
根據(jù)本次大會(huì)上發(fā)布的一批開源應(yīng)用案例,開源鴻蒙在電力、水利水運(yùn)、養(yǎng)老、智慧城市、交通、油氣和工業(yè)制造等行業(yè)已有廣泛的應(yīng)用,展示了開源操作系統(tǒng)技術(shù)成為推動(dòng)行業(yè)變革新引擎的巨大潛力。如在新疆某水庫(kù)的一個(gè)視頻AI監(jiān)控項(xiàng)目,夜間復(fù)雜場(chǎng)景下整體識(shí)別率達(dá)到了95.45%,強(qiáng)于傳統(tǒng)攝像頭。這些案例,對(duì)開發(fā)者和IT從業(yè)人員提升技術(shù)選型和解決方案設(shè)計(jì)能力,將開源技術(shù)應(yīng)用于實(shí)際業(yè)務(wù)場(chǎng)景,也帶來了很高的實(shí)用價(jià)值。
另一個(gè)操作系統(tǒng)同樣為AI而變。在openEuler技術(shù)分論壇,嘉賓們探討了openEuler在云原生、嵌入式、AI等領(lǐng)域的最新成果,如何通過開源社區(qū)推動(dòng)操作系統(tǒng)的創(chuàng)新,以及openEuler如何幫助企業(yè)和開發(fā)者構(gòu)建一個(gè)更加安全、高效的數(shù)字基礎(chǔ)設(shè)施。
openEuler技術(shù)委員會(huì)委員任慰透露,他正在牽頭推進(jìn)openEuler Embeded引入智能駕駛基礎(chǔ)軟件的具體規(guī)劃和實(shí)現(xiàn),面向智能駕駛領(lǐng)域,涉及異構(gòu)多核SoC、艙駕融合等,后續(xù)還有面向車路云一體化、智能駕駛加車云融合等規(guī)劃。
此外,openEuler還披露了具身機(jī)器人、人形機(jī)器人以及openEuler for Space的星辰大海。對(duì)于利用openEuler開源技術(shù)構(gòu)建未來數(shù)字世界的開發(fā)者,這無疑帶來了更有趣的想象空間。
開源數(shù)據(jù)庫(kù)崛起:變革企業(yè)級(jí)應(yīng)用開發(fā)
數(shù)據(jù)庫(kù)是核心IT基礎(chǔ)設(shè)施之一,AI的融入為數(shù)據(jù)庫(kù)領(lǐng)域帶來了革命性的變化。本次大會(huì)在開源數(shù)據(jù)庫(kù)技術(shù)最新發(fā)展方面的探討,覆蓋了數(shù)據(jù)庫(kù)技術(shù)的智能化、自動(dòng)化管理、以及如何通過技術(shù)創(chuàng)新優(yōu)化數(shù)據(jù)庫(kù)性能,以適應(yīng)AI系統(tǒng)對(duì)數(shù)據(jù)處理和分析的復(fù)雜需求。
華中科技大學(xué)并行數(shù)據(jù)存儲(chǔ)實(shí)驗(yàn)室周元輝博士講述了云上鍵值存儲(chǔ)時(shí)延優(yōu)化及RAG系統(tǒng)優(yōu)化探索的進(jìn)展,根據(jù)云塊存儲(chǔ)的契約和時(shí)延性能的關(guān)系,提出了一種契約感知的設(shè)計(jì)優(yōu)化的時(shí)延方案,并討論了RAG技術(shù)在自動(dòng)評(píng)估輸出質(zhì)量方面的挑戰(zhàn)和解決方案。這也是該實(shí)驗(yàn)室已和TiDB在AI及云存儲(chǔ)領(lǐng)域合作的成果,方案目前在不同的EBS存儲(chǔ)棧上,甚至在不同的云服務(wù)商的塊存儲(chǔ)設(shè)備上,都表現(xiàn)出了優(yōu)異的時(shí)延優(yōu)化效果。
作為由開放原子開源基金會(huì)孵化和運(yùn)營(yíng)的企業(yè)級(jí)分布式HTAP開源數(shù)據(jù)庫(kù),OpenTenBase社區(qū)同樣關(guān)注優(yōu)化,認(rèn)為無論Oracle、MySQL還是PostgreSQL,優(yōu)化都必不可少,因?yàn)镾QL是應(yīng)用程序中最常見的語言。
OpenTenBase社區(qū)的開源共建企業(yè)正在通過開源和商業(yè)雙驅(qū)動(dòng)提升產(chǎn)品能力,促進(jìn)OpenTenBase在企業(yè)級(jí)應(yīng)用開發(fā)場(chǎng)景的應(yīng)用,幫助開發(fā)者解決數(shù)據(jù)管理和分析中的挑戰(zhàn)。他們表示,未來一到兩年內(nèi)將扎根底層技術(shù),如底層語法、底層引擎的改造,持續(xù)打磨Oracle兼容、遷移工具等,促進(jìn)技術(shù)架構(gòu)進(jìn)化到更合理且能支持長(zhǎng)期演進(jìn)的狀態(tài)。此外,社區(qū)也正在密切關(guān)注和探討與大模型等AI技術(shù)的集成、AI對(duì)SQL分析的影響等。
目前,開源數(shù)據(jù)庫(kù)普遍遇到了Append Update MVCC框架下數(shù)據(jù)膨脹、索引檢索效果下降,多進(jìn)程架構(gòu)對(duì)系統(tǒng)并發(fā)處理能力的影響以及源數(shù)據(jù)管理導(dǎo)致的內(nèi)存浪費(fèi),Double Cache資源使用等問題。對(duì)此,OpenTenBase社區(qū)認(rèn)為,從長(zhǎng)遠(yuǎn)發(fā)展考慮,維護(hù)自己的分支并不明智,未來將會(huì)錯(cuò)過社區(qū)新特性帶來的紅利。
此外,KaiwuDB在AIoT場(chǎng)景下的技術(shù)實(shí)踐、TuGraph在GraphRAG上的探索和實(shí)踐等話題,也受到了與會(huì)者的熱切關(guān)注。
開源大模型:驅(qū)動(dòng)AI領(lǐng)域的創(chuàng)新與協(xié)作
開源大模型落地實(shí)踐分論壇的嘉賓們圍繞開源大模型實(shí)際落地的需求,在技術(shù)突破、模型壓縮、模型性能優(yōu)化、高效推理等方面進(jìn)行了深入探討,分享了各自的最新研究成果和實(shí)踐經(jīng)驗(yàn),主要包括多模態(tài)安全目標(biāo)檢索與生成技術(shù)的研究與應(yīng)用、多模態(tài)情感語義理解大模型及其應(yīng)用、大模型推理服務(wù)、開源的面向通用任務(wù)的聲音預(yù)訓(xùn)練模型XIAOMI DASHENG、“紫東太初”多模態(tài)大模型的進(jìn)化之路和騰訊開源大型模型MOE及其關(guān)鍵技術(shù)與應(yīng)用等。
北京智源人工智能研究院在大模型和數(shù)據(jù)方面的工作,包括構(gòu)建高質(zhì)量數(shù)據(jù)集的方法論、系統(tǒng)方法,以及不同系列模型的開發(fā),為與會(huì)者展示了數(shù)據(jù)對(duì)模型性能的重要性,并給出了建立高質(zhì)量數(shù)據(jù)集和標(biāo)簽體系的建議。北京智源人工智能研究院的劉廣表示,在智源,構(gòu)建數(shù)據(jù)集后,團(tuán)隊(duì)會(huì)通過小模型進(jìn)行驗(yàn)證,評(píng)估數(shù)據(jù)集的質(zhì)量和有效性。這一過程不僅可以發(fā)現(xiàn)數(shù)據(jù)中的問題,還能為后續(xù)的模型訓(xùn)練提供反饋。此外,智源團(tuán)隊(duì)還通過設(shè)計(jì)統(tǒng)一的輸入格式和處理流程,使得圖像、文本和音頻等多種模態(tài)數(shù)據(jù)能夠有效結(jié)合,提高模型的綜合性能,以整合不同模態(tài)數(shù)據(jù),應(yīng)對(duì)多模態(tài)大模型的需要。
隨著大模型的發(fā)展,數(shù)據(jù)量和模型規(guī)模的增大導(dǎo)致了算力需求增加、推理成本高昂以及用戶體驗(yàn)下降等問題。為了應(yīng)對(duì)這些挑戰(zhàn),阿里云智能集團(tuán)技術(shù)專家馬騰提出了基于KVCache的解決方案,該方案通過緩存機(jī)制減少算力開銷,提高吞吐量,并在過載場(chǎng)景下保持較好的用戶體驗(yàn)。
阿里云與清華大學(xué)已經(jīng)聯(lián)合發(fā)起了一個(gè)稱為mooncake的開源項(xiàng)目,通過構(gòu)建一個(gè)高效的分布式KVCache緩存池,以GPUdirect、RDMA等高性能IO技術(shù)實(shí)現(xiàn)多節(jié)點(diǎn)間數(shù)據(jù)高速傳輸,并與任意推理框架兼容,從而解決大模型推理中面臨的性能瓶頸。
構(gòu)建開源基礎(chǔ)設(shè)施:為數(shù)字世界打造堅(jiān)實(shí)的技術(shù)基石
開源的發(fā)展離不開健康的社區(qū)生態(tài),例如開源鴻蒙社區(qū)已匯聚8000多名貢獻(xiàn)者和70多家單位持續(xù)共建,項(xiàng)目代碼量累計(jì)超過1.2億行;而OpenTenBase社區(qū)已擁有19家企業(yè)加入社區(qū)委員會(huì),通過開放原子校源行活動(dòng),發(fā)展了40余位OpenTenBase的校園大使。一套完整的、運(yùn)行良好的開源基礎(chǔ)設(shè)施,能夠更好地支撐開源生態(tài)的良性發(fā)展。
因國(guó)內(nèi)開源軟件起步較晚,且普遍對(duì)開源技術(shù)的重視遠(yuǎn)超社區(qū)建設(shè),企業(yè)開源團(tuán)隊(duì)和社區(qū)運(yùn)營(yíng)人員對(duì)開源基礎(chǔ)設(shè)施的認(rèn)知尚未一致,故而開源基礎(chǔ)設(shè)施建設(shè)分論壇首先回答了什么是開源基礎(chǔ)設(shè)施、開源基礎(chǔ)設(shè)施為什么重要的問題,然后探討了開源基礎(chǔ)設(shè)施建設(shè)進(jìn)展,包括代碼托管平臺(tái)、SBOM物料清單等,以及這些工具如何為開發(fā)者和IT從業(yè)人員提供更高效、安全的軟件開發(fā)和維護(hù)環(huán)境。
專家認(rèn)為,完整的開源基礎(chǔ)設(shè)施,包括代碼托管平臺(tái)、制品托管平臺(tái)、云基礎(chǔ)設(shè)施平臺(tái)等狹義基礎(chǔ)設(shè)施,也包括更廣義的基礎(chǔ)設(shè)施,如SBOM清單、CVE漏洞、代碼掃描工具、社區(qū)、開源協(xié)議等。
而開放原子開源基金會(huì)提供了包括開源協(xié)作平臺(tái)AtomGit等開源基礎(chǔ)設(shè)施,值得注意的是,AtomGit正在聯(lián)合國(guó)內(nèi)主要托管平臺(tái)共同打造全面的開源數(shù)據(jù)中心,致力于在多平臺(tái)間遷移項(xiàng)目、交流思想、共享成果。此舉加速了技術(shù)創(chuàng)新與應(yīng)用的步伐,為各行各業(yè)帶來了更加高效、智能的解決方案。
專家們認(rèn)為,隨著AI和開源的發(fā)展,開源基礎(chǔ)設(shè)施將逐步成為數(shù)字世界不可或缺的底座。
2024開放原子開發(fā)者大會(huì)暨首屆開源技術(shù)學(xué)術(shù)大會(huì),不僅展示了開源技術(shù)在AI大模型、操作系統(tǒng)、數(shù)據(jù)庫(kù)等關(guān)鍵領(lǐng)域的最新進(jìn)展與創(chuàng)新成果,也深刻揭示了開源作為推動(dòng)數(shù)字化轉(zhuǎn)型與行業(yè)變革的重要力量。通過匯聚全球智慧,共同探討開源技術(shù)的未來趨勢(shì)與挑戰(zhàn),本次大會(huì)為構(gòu)建更加開放、協(xié)作、創(chuàng)新的數(shù)字世界奠定了堅(jiān)實(shí)基礎(chǔ)。未來,開放原子開源基金會(huì)將持續(xù)為項(xiàng)目、產(chǎn)業(yè)和廣大開發(fā)者提供優(yōu)質(zhì)服務(wù),不斷強(qiáng)化技術(shù)創(chuàng)新、生態(tài)構(gòu)建和產(chǎn)業(yè)發(fā)展,促進(jìn)開發(fā)者創(chuàng)新成長(zhǎng),推動(dòng)開源產(chǎn)業(yè)生態(tài)繁榮。