展會(huì)信息港展會(huì)大全

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2025-02-07 17:05:48   瀏覽:185次  

導(dǎo)讀:2025年的春節(jié),可能是中國(guó)有史以來(lái)科技味最濃的。一切,都只因?yàn)镈eepSeek的橫空出世。作為全球增速最快的AI應(yīng)用,DeepSeek上線20天來(lái),日活用戶數(shù)突破2000萬(wàn),目前達(dá)到了ChatGPT的23%,并且應(yīng)用每日下載量接近500萬(wàn)。饒毅教授甚至在其個(gè)人公眾號(hào)上評(píng)價(jià)道,“DeepSeek是鴉片戰(zhàn)爭(zhēng)以來(lái),中國(guó)對(duì)人類最大的科技震撼!比绱酥斓谋l(fā)速度,一方面說(shuō)明DeepSeek的開(kāi)源和低價(jià)策略正在 ......

2025年的春節(jié),可能是中國(guó)有史以來(lái)科技味最濃的。一切,都只因?yàn)镈eepSeek的橫空出世。

作為全球增速最快的AI應(yīng)用,DeepSeek上線20天來(lái),日活用戶數(shù)突破2000萬(wàn),目前達(dá)到了ChatGPT的23%,并且應(yīng)用每日下載量接近500萬(wàn)。饒毅教授甚至在其個(gè)人公眾號(hào)上評(píng)價(jià)道,“DeepSeek是鴉片戰(zhàn)爭(zhēng)以來(lái),中國(guó)對(duì)人類最大的科技震撼!

如此之快的爆發(fā)速度,一方面說(shuō)明DeepSeek的開(kāi)源和低價(jià)策略正在重構(gòu)AI應(yīng)用行業(yè)生態(tài),使得更多中小公司有機(jī)會(huì)加入AI競(jìng)爭(zhēng),削弱了巨頭的護(hù)城河。另一方面,DeepSeek-R1在數(shù)學(xué)、代碼等任務(wù)上展現(xiàn)出了比肩OpenAI o1的長(zhǎng)文本推理和自我修正能力,表明DeepSeek大幅推動(dòng)了AI推理能力的提升,拓展了AI推理在復(fù)雜任務(wù)和專業(yè)領(lǐng)域的應(yīng)用邊界,使AI能夠更好地處理復(fù)雜的推理問(wèn)題。

數(shù)據(jù)顯示,DeepSeek通過(guò)架構(gòu)創(chuàng)新,使顯存占用降至傳統(tǒng)架構(gòu)的5%-13%,推理成本僅為GPT-4 Turbo的1/70,訓(xùn)練成本更是OpenAI同類模型的1/10。這意味著,在大幅降低算力依賴的同時(shí),DeepSeek也顛覆了AI行業(yè)的底層邏輯從依賴算力堆砌轉(zhuǎn)向算法驅(qū)動(dòng)效率,繼而加速整個(gè)行業(yè)生態(tài)向開(kāi)源、普惠方向演進(jìn)。

但這并不代表DeepSeek未來(lái)在模型性能方面會(huì)存在任何妥協(xié)。事實(shí)上,為了進(jìn)一步提升模型性能,尤其是在處理更復(fù)雜的任務(wù),如多模態(tài)融合、更深入的語(yǔ)義理解和更精準(zhǔn)的生成,DeepSeek模型參數(shù)量將繼續(xù)增大,從而對(duì)內(nèi)存容量和帶寬提出更高的需求。

這一過(guò)程中,一種新型內(nèi)存架構(gòu)多路復(fù)用雙列直插內(nèi)存模組(Multiplexed Rank DIMM, MRDIMM)將因此受益。作為一種高性能的內(nèi)存互連解決方案,MRDIMM能夠提供更高的內(nèi)存密度和帶寬,滿足以DeepSeek為代表的大模型對(duì)大規(guī)模數(shù)據(jù)處理的需求。

AI發(fā)展,苦“三力”久矣

這里的“三力”,即“算力”、“存力”和“運(yùn)力”。

以大語(yǔ)言模型GPT為例,2022年11月發(fā)布的GPT-3使用了1750億個(gè)參數(shù),而2024年5月發(fā)布的最新版本GPT-4o則使用了超過(guò)1.5萬(wàn)億個(gè)參數(shù)。不僅是GPT系列,過(guò)去幾年里,Transformer類模型參數(shù)數(shù)量的增長(zhǎng)普遍都以指數(shù)級(jí)別呈現(xiàn),每?jī)赡甏蠹s增加410倍。

從近年來(lái)服務(wù)器CPU的技術(shù)路徑來(lái)看,一個(gè)顯著的趨勢(shì)是CPU廠商不斷增加內(nèi)核數(shù)量,CPU核心數(shù)呈指數(shù)級(jí)增長(zhǎng),如英特爾和AMD最新一代CPU核心數(shù)都達(dá)到了數(shù)十甚至上百的量級(jí)。同時(shí),自2012年以來(lái),數(shù)據(jù)中心服務(wù)器內(nèi)存對(duì)速度、容量的要求每年都在以超過(guò)10倍的速度增長(zhǎng),且沒(méi)有減緩的跡象?梢哉f(shuō),“算力”和“存力”在過(guò)去十年里的確是得到了空前的進(jìn)步。

與之形成鮮明對(duì)比的,是為處理器提供必要的內(nèi)存帶寬一直是“一場(chǎng)艱苦的斗爭(zhēng)”。傳統(tǒng)內(nèi)存RDIMM傳輸帶寬的線性增長(zhǎng)態(tài)勢(shì)與CPU核心數(shù)量的指數(shù)增加速度不匹配,這是 AMD和英特爾在其主流處理器上轉(zhuǎn)向DDR5內(nèi)存的原因之一。

這也直接帶動(dòng)了DDR5市場(chǎng)的快速發(fā)展。市場(chǎng)調(diào)研機(jī)構(gòu)Omdia分析指出,對(duì)DDR5的市場(chǎng)需求從2020年開(kāi)始逐步顯現(xiàn),到2024年,DDR5將占據(jù)整個(gè)DRAM市場(chǎng)份額的43%左右。

可以想象,如果上述現(xiàn)象一直持續(xù)下去,在超過(guò)一定的核心數(shù)量后,所有CPU都會(huì)出現(xiàn)帶寬分配不足的情況,從而無(wú)法充分發(fā)揮增加核心數(shù)量所帶來(lái)的優(yōu)勢(shì),嚴(yán)重制約CPU性能的發(fā)揮,形成了所謂的“內(nèi)存墻”,難以滿足系統(tǒng)性能的平衡。

AI推理、大數(shù)據(jù)應(yīng)用、以及眾多高性能計(jì)算工作負(fù)載側(cè)也遇到了同樣的情形。以先進(jìn)駕駛員輔助系統(tǒng)(ADAS)為例,L2+/L3級(jí)別系統(tǒng)的復(fù)雜數(shù)據(jù)處理至少需要超過(guò)200GB/s的內(nèi)存帶寬;在L5級(jí),如果車(chē)輛要能夠獨(dú)立地對(duì)周?chē)鷦?dòng)態(tài)環(huán)境做出反應(yīng),將需要超過(guò)500GB/s的內(nèi)存帶寬。

這些內(nèi)存密集型計(jì)算之所以迫切需要大幅提高內(nèi)存系統(tǒng)的帶寬,以滿足多核CPU中各個(gè)內(nèi)核的數(shù)據(jù)吞吐要求,一是因?yàn)楦邘捠菑?fù)雜AI/ML算法的基本需求,二是相較于AI訓(xùn)練,AI推理更重視計(jì)算效率、時(shí)延、性價(jià)比等,而且AI推理需要應(yīng)用到不同的端側(cè)上,單純依靠堆砌額外數(shù)量的GPU和AI加速器,很難在成本、功耗、系統(tǒng)架構(gòu)等方面獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

因此,必須要找到更加高效的內(nèi)存數(shù)據(jù)傳輸與處理體系架構(gòu),提高內(nèi)存利用效率,才能有效化解“內(nèi)存墻”問(wèn)題,才能讓龐大的數(shù)據(jù)和計(jì)算資源實(shí)現(xiàn)按需組合,并根據(jù)不同工作負(fù)載的需求動(dòng)態(tài)配置內(nèi)存資源。

這時(shí),MRDIMM這樣新的內(nèi)存技術(shù)就逐漸走進(jìn)了人們的視野之中。那么,什么是MRDIMM?它有何神奇之處?接下來(lái),就讓我們揭開(kāi)MRDIMM的“前世今生”。

釋放存儲(chǔ)帶寬的魔力

MRDIMM最早可追溯到DDR4世代的LRDIMM(Load Reduced DIMM,減載雙列直插內(nèi)存模塊),該種類型的內(nèi)存模組旨在降低服務(wù)器內(nèi)存總線的負(fù)載,同時(shí)提高內(nèi)存的工作頻率和容量。

與服務(wù)器使用的傳統(tǒng)內(nèi)存模組RDIMM只采用RCD(Registered Clock Driver,寄存時(shí)鐘器)相比,LRDIMM新增了DB(Data Buffer,數(shù)據(jù)緩沖器)功能,這種設(shè)計(jì)不但降低了主板上的信號(hào)負(fù)載,還允許在模組上使用更大容量的內(nèi)存顆粒,從而能夠顯著提升系統(tǒng)內(nèi)存容量。

JEDEC當(dāng)時(shí)對(duì)于LRDIMM架構(gòu)曾有過(guò)不同方案的討論,最終采納了中國(guó)瀾起科技公司發(fā)明的“1+9”(1顆RCD+9顆DB)方案作為DDR4 LRDIMM的國(guó)際標(biāo)準(zhǔn)。這并不是一件容易的事情,要知道,在DDR4世代,全球只有IDT(后被日本瑞薩電子收購(gòu))、Rambus和瀾起科技三家公司可以提供RCD及DB芯片套片。而在貢獻(xiàn)DDR4 LRDIMM國(guó)際標(biāo)準(zhǔn)后,瀾起科技也于2021年入選JEDEC董事會(huì),進(jìn)一步提升了自身的行業(yè)話語(yǔ)權(quán)。

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?

資料來(lái)源:瀾起科技

進(jìn)入DDR5世代,盡管根據(jù)JEDEC的定義,LRDIMM演變?yōu)椤?顆RCD+10顆DB”的架構(gòu),但由于DDR5內(nèi)存模組容量較DDR4有顯著增加,使得DDR5 LRDIMM的性價(jià)比優(yōu)勢(shì)逐步縮小,其在服務(wù)器內(nèi)存中的占比并不是很大。

此時(shí),沿用了與LRDIMM類似的“1+10”技術(shù)架構(gòu),即需要搭配1顆MRCD(多路復(fù)用寄存時(shí)鐘驅(qū)動(dòng)器)芯片和10顆MDB(多路復(fù)用數(shù)據(jù)緩沖器)芯片,能實(shí)現(xiàn)更高內(nèi)存帶寬的MRDIMM開(kāi)始登上歷史舞臺(tái)。

從工作原理角度來(lái)講,MRDIMM能顯著提升接口速度和內(nèi)存帶寬的關(guān)鍵,源于其在內(nèi)存模組上集成的多路復(fù)用器或數(shù)據(jù)緩沖器。得益于此,MRCD能夠在標(biāo)準(zhǔn)速率下同時(shí)生成四個(gè)芯片選擇信號(hào),支持更復(fù)雜的內(nèi)存管理操作;MDB可以把兩個(gè)內(nèi)存陣列的傳輸數(shù)據(jù)組合為一個(gè),一個(gè)內(nèi)存陣列可以傳輸64字節(jié)的數(shù)據(jù),兩個(gè)內(nèi)存陣列同時(shí)操作就可以一次傳輸128字節(jié)數(shù)據(jù),使DRAM一次可以向CPU傳輸128個(gè)字節(jié)的數(shù)據(jù),實(shí)現(xiàn)傳輸速率的翻倍。這樣,帶寬的魔力就被徹底的釋放出來(lái)。

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?

資料來(lái)源:Lenovo

MRDIMM的優(yōu)勢(shì)概括起來(lái)主要有三點(diǎn):

1.速率大幅提升。相較于同時(shí)期RDIMM支持6400MT/s速率,第一代MRDIMM支持8800MT/s速率,提升幅度接近40%,這一提升幅度過(guò)去往往需要2-3代才能實(shí)現(xiàn)。而第二代和第三代MRDIMM的速度更是將達(dá)到12,800 MT/s和17,600 MT/s。

2.與DDR5良好的兼容性。MRDIMM完美兼容常規(guī)RDIMM的連接器和外形規(guī)格,對(duì)客戶來(lái)說(shuō),無(wú)需對(duì)主板進(jìn)行任何改動(dòng),就可輕松實(shí)現(xiàn)升級(jí)。

3.出色的穩(wěn)定性。MRDIMM全面繼承了RDIMM的糾錯(cuò)機(jī)制及RAS(可靠性、可用性和可維護(hù)性)功能,確保無(wú)論數(shù)據(jù)緩沖區(qū)中產(chǎn)生何種復(fù)雜的獨(dú)立多路復(fù)用請(qǐng)求,都能有效維護(hù)數(shù)據(jù)的完整性與準(zhǔn)確性。

目前來(lái)看,HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d這些科學(xué)計(jì)算類的應(yīng)用,以及大語(yǔ)言模型推理,是MRDIMM的最大受益者。

在美光和英特爾的一項(xiàng)聯(lián)合測(cè)試中,研究人員使用了英特爾Hibench基準(zhǔn)測(cè)試套件中的2.4TB數(shù)據(jù)集,在內(nèi)存容量相同的情況下,相較RDIMM,MRDIMM的運(yùn)算效率提高了1.2倍,使用容量翻倍的TFF MRDIMM時(shí)運(yùn)算效率提高了1.7倍,內(nèi)存與存儲(chǔ)之間的數(shù)據(jù)遷移減少了10倍。

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?

資料來(lái)源:anandtech

MRDIMM也提升了AI推理的效率。在內(nèi)存容量相同的情況下運(yùn)行Meta Llama 3 8B大模型,使用MRDIMM后,詞元的吞吐量(Token throughput)是RDIMM的1.31倍,延遲降低24%,首個(gè)詞元生成時(shí)間(Time to first Token)降低13%,CPU利用效率提升26%,末級(jí)緩存(LLC)延遲降低20%。

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?

資料來(lái)源:anandtech

上述優(yōu)勢(shì)使得MRDIMM一經(jīng)推出就受到產(chǎn)業(yè)界的廣泛關(guān)注。通過(guò)采用DDR5的物理和電氣標(biāo)準(zhǔn),MRDIMM實(shí)現(xiàn)了內(nèi)存技術(shù)的突破,使CPU單核心的帶寬和容量得以擴(kuò)展,極大改善了大算力時(shí)代“內(nèi)存墻”桎梏,對(duì)于內(nèi)存密集型計(jì)算效率的提升意義重大。

盤(pán)點(diǎn)MRDIMM的主要玩家

2024年7月,美光科技宣布推出MRDIMM,支持32GB到256GB廣泛的容量選擇,涵蓋標(biāo)準(zhǔn)型和高型外形規(guī)格(TFF),適用于高性能1U和2U服務(wù)器。根據(jù)美光的測(cè)試數(shù)據(jù),與RDIMM(支持速率6400MT/s)相比,MRDIMM(支持速率8800MT/s)有效內(nèi)存帶寬提升高達(dá)39%,總線效率提升超過(guò)15%,延遲降低高達(dá)40%。

當(dāng)然,美光也不是第一個(gè)公開(kāi)宣布MRDIMM樣品的公司。三星在2024年6月宣布了自己的MRDIMM產(chǎn)品方案,該方案通過(guò)組合兩個(gè)DDR5組件,使現(xiàn)有DRAM組件的帶寬翻倍,可提供高達(dá)8.8Gb/s的數(shù)據(jù)傳輸速度。

而在更早之前的2022年底,SK海力士推出了用于特定英特爾服務(wù)器平臺(tái)的MCR-DIMM技術(shù),允許高端服務(wù)器DIMM以最低8Gbps的數(shù)據(jù)速率運(yùn)行,較之當(dāng)時(shí)DDR5內(nèi)存產(chǎn)品(4.8 Gbps)相比,帶寬提高了80%。

英特爾2024年10月推出的至強(qiáng)6性能核(P-Core)處理器至強(qiáng)6900P,就將支持每秒8800MT的MRDIMM內(nèi)存作為產(chǎn)品亮點(diǎn)之一,獨(dú)立測(cè)試表明,使用MRDIMM的至強(qiáng)6處理器比使用傳統(tǒng)RDIMM的相同系統(tǒng)性能提升高達(dá)33%。同時(shí),通過(guò)使用標(biāo)配的6400MT/s DDR5內(nèi)存和更快的MRDIMM內(nèi)存相結(jié)合的方式,英特爾可以處理對(duì)內(nèi)存非常敏感的工作負(fù)載,包括科學(xué)計(jì)算、AI等。

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?

資料來(lái)源:英特爾

再回到MRDIMM本身,如前文所述,在MRDIMM實(shí)現(xiàn)雙倍帶寬的過(guò)程中,MDB芯片起到了至關(guān)重要的作用。目前全球可以提供完整MRCD/MDB芯片套片的供應(yīng)商包括瑞薩電子、Rambus和瀾起科技三家公司,這與DDR4世代的格局是一致的。

作為中國(guó)在內(nèi)存接口芯片市場(chǎng)上的標(biāo)桿型公司,2024年,瀾起科技DDR5內(nèi)存接口芯片出貨量在第三季度超過(guò)DDR4內(nèi)存接口芯片,其出貨占比將在第四季度進(jìn)一步增加,而MRCD/MDB芯片則實(shí)現(xiàn)超過(guò)7000萬(wàn)元人民幣的銷(xiāo)售收入。目前,瀾起科技第一代 MRCD/MDB 套片產(chǎn)品已成功實(shí)現(xiàn)量產(chǎn),第二代 MRCD/MDB 套片的工程樣片已經(jīng)推出,并在近日完成了向全球主要內(nèi)存廠商的送樣工作,有望再次引領(lǐng)行業(yè)技術(shù)發(fā)展潮流 。

瀾起科技第二代MRCD芯片支持高達(dá)12800MT/s的速率,可精確緩沖并重新驅(qū)動(dòng)來(lái)自內(nèi)存控制器的地址、命令、時(shí)鐘及控制信號(hào)。第二代MRCD芯片具有兩個(gè)子通道,每個(gè)子通道又分為兩個(gè)偽通道,以增加主機(jī)系統(tǒng)的總帶寬。同時(shí),兩個(gè)子通道分別執(zhí)行CA和DPAR輸入信號(hào)的奇偶校驗(yàn)檢查,兩個(gè)偽通道分別接收CA(命令/地址)信號(hào)輸入并生成獨(dú)立的CA輸出信號(hào)。

當(dāng)DeepSeek改寫(xiě)AI敘事,突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)?

資料來(lái)源:瀾起科技

與之協(xié)同工作的第二代MDB芯片同樣支持12800MT/s的數(shù)據(jù)速率。芯片主機(jī)側(cè)配備雙4位數(shù)據(jù)接口,運(yùn)行速度是DRAM側(cè)的兩倍;DRAM側(cè)設(shè)有四個(gè)4位數(shù)據(jù)接口,每個(gè)偽通道分配兩個(gè)。MDB可高效的將兩個(gè)DRAM側(cè)DQ信號(hào)多路復(fù)用為一個(gè)主機(jī)側(cè)DQ信號(hào),并通過(guò)一個(gè)僅輸入的控制總線接口,用于連接MRCD。

性能躍升及生態(tài)完善將共同推動(dòng)MRDIMM的未來(lái)

從8,800MT/s到17,600MT/s,MRDIMM帶寬和性能的顯著提升對(duì)高性能計(jì)算、AI計(jì)算客戶來(lái)說(shuō)是頗具吸引力的?梢灶A(yù)見(jiàn),基于推理應(yīng)用的新一輪AI基礎(chǔ)設(shè)施建設(shè)將刺激終端對(duì)MRDIMM需求。

同時(shí),考慮到第一代MRDIMM目前只有英特爾的Granite Rapids支持,行業(yè)相關(guān)生態(tài)仍處于初期,但從第二代MRDIMM開(kāi)始,隨著相關(guān)技術(shù)逐步成熟,業(yè)內(nèi)預(yù)計(jì)將有更多類型服務(wù)器CPU支持MRDIMM,行業(yè)生態(tài)將進(jìn)一步完善,并最終實(shí)現(xiàn)終端需求放量。

對(duì)內(nèi)存接口芯片廠商而言,考慮到一根MRDIMM需要標(biāo)配十顆MDB芯片,MRDIMM的普及勢(shì)必將大幅提升MDB芯片的需求,從而擴(kuò)大內(nèi)存接口芯片行業(yè)市場(chǎng)規(guī)模,全球三家內(nèi)存接口芯片廠商也均會(huì)受益于該項(xiàng)新技術(shù)的發(fā)展。

但與其他方案相比,瀾起科技在MRDIMM相關(guān)技術(shù)標(biāo)準(zhǔn)制定中具有的影響力,將有望成為其最強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)之一。從DDR4 DB到DDR5 DB,再到牽頭制定MDB芯片國(guó)際標(biāo)準(zhǔn),瀾起科技在技術(shù)規(guī)范和兼容性上具備的權(quán)威性和前瞻性,能夠幫助生態(tài)伙伴更好地適應(yīng)未來(lái)行業(yè)的發(fā)展和變化,在市場(chǎng)競(jìng)爭(zhēng)中占據(jù)有利地位。加之高效的客戶支持,良好的產(chǎn)品兼容性, 以及與生態(tài)系統(tǒng)上下游廠商的深度合作, 都為瀾起科技在MRDIMM領(lǐng)域的競(jìng)爭(zhēng)力提供了堅(jiān)實(shí)的基礎(chǔ)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港