當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2025-02-07 17:05:48 瀏覽：185次

導(dǎo)讀：2025年的春節(jié)，可能是中國(guó)有史以來(lái)科技味最濃的。一切，都只因?yàn)镈eepSeek的橫空出世。作為全球增速最快的AI應(yīng)用，DeepSeek上線20天來(lái)，日活用戶數(shù)突破2000萬(wàn)，目前達(dá)到了ChatGPT的23%，并且應(yīng)用每日下載量接近500萬(wàn)。饒毅教授甚至在其個(gè)人公眾號(hào)上評(píng)價(jià)道，“DeepSeek是鴉片戰(zhàn)爭(zhēng)以來(lái)，中國(guó)對(duì)人類最大的科技震撼�！比绱酥斓谋l(fā)速度，一方面說(shuō)明DeepSeek的開(kāi)源和低價(jià)策略正在 ......

2025年的春節(jié)，可能是中國(guó)有史以來(lái)科技味最濃的。一切，都只因?yàn)镈eepSeek的橫空出世。

作為全球增速最快的AI應(yīng)用，DeepSeek上線20天來(lái)，日活用戶數(shù)突破2000萬(wàn)，目前達(dá)到了ChatGPT的23%，并且應(yīng)用每日下載量接近500萬(wàn)。饒毅教授甚至在其個(gè)人公眾號(hào)上評(píng)價(jià)道，“DeepSeek是鴉片戰(zhàn)爭(zhēng)以來(lái)，中國(guó)對(duì)人類最大的科技震撼�！�

如此之快的爆發(fā)速度，一方面說(shuō)明DeepSeek的開(kāi)源和低價(jià)策略正在重構(gòu)AI應(yīng)用行業(yè)生態(tài)，使得更多中小公司有機(jī)會(huì)加入AI競(jìng)爭(zhēng)，削弱了巨頭的護(hù)城河。另一方面，DeepSeek-R1在數(shù)學(xué)、代碼等任務(wù)上展現(xiàn)出了比肩OpenAI o1的長(zhǎng)文本推理和自我修正能力，表明DeepSeek大幅推動(dòng)了AI推理能力的提升，拓展了AI推理在復(fù)雜任務(wù)和專業(yè)領(lǐng)域的應(yīng)用邊界，使AI能夠更好地處理復(fù)雜的推理問(wèn)題。

數(shù)據(jù)顯示，DeepSeek通過(guò)架構(gòu)創(chuàng)新，使顯存占用降至傳統(tǒng)架構(gòu)的5%-13%，推理成本僅為GPT-4 Turbo的1/70，訓(xùn)練成本更是OpenAI同類模型的1/10。這意味著，在大幅降低算力依賴的同時(shí)，DeepSeek也顛覆了AI行業(yè)的底層邏輯從依賴算力堆砌轉(zhuǎn)向算法驅(qū)動(dòng)效率，繼而加速整個(gè)行業(yè)生態(tài)向開(kāi)源、普惠方向演進(jìn)。

但這并不代表DeepSeek未來(lái)在模型性能方面會(huì)存在任何妥協(xié)。事實(shí)上，為了進(jìn)一步提升模型性能，尤其是在處理更復(fù)雜的任務(wù)，如多模態(tài)融合、更深入的語(yǔ)義理解和更精準(zhǔn)的生成，DeepSeek模型參數(shù)量將繼續(xù)增大，從而對(duì)內(nèi)存容量和帶寬提出更高的需求。

這一過(guò)程中，一種新型內(nèi)存架構(gòu)多路復(fù)用雙列直插內(nèi)存模組(Multiplexed Rank DIMM, MRDIMM)將因此受益。作為一種高性能的內(nèi)存互連解決方案，MRDIMM能夠提供更高的內(nèi)存密度和帶寬，滿足以DeepSeek為代表的大模型對(duì)大規(guī)模數(shù)據(jù)處理的需求。

AI發(fā)展，苦“三力”久矣

這里的“三力”，即“算力”、“存力”和“運(yùn)力”。

以大語(yǔ)言模型GPT為例，2022年11月發(fā)布的GPT-3使用了1750億個(gè)參數(shù)，而2024年5月發(fā)布的最新版本GPT-4o則使用了超過(guò)1.5萬(wàn)億個(gè)參數(shù)。不僅是GPT系列，過(guò)去幾年里，Transformer類模型參數(shù)數(shù)量的增長(zhǎng)普遍都以指數(shù)級(jí)別呈現(xiàn)，每?jī)赡甏蠹s增加410倍。

從近年來(lái)服務(wù)器CPU的技術(shù)路徑來(lái)看，一個(gè)顯著的趨勢(shì)是CPU廠商不斷增加內(nèi)核數(shù)量，CPU核心數(shù)呈指數(shù)級(jí)增長(zhǎng)，如英特爾和AMD最新一代CPU核心數(shù)都達(dá)到了數(shù)十甚至上百的量級(jí)。同時(shí)，自2012年以來(lái)，數(shù)據(jù)中心服務(wù)器內(nèi)存對(duì)速度、容量的要求每年都在以超過(guò)10倍的速度增長(zhǎng)，且沒(méi)有減緩的跡象�？梢哉f(shuō)，“算力”和“存力”在過(guò)去十年里的確是得到了空前的進(jìn)步。

與之形成鮮明對(duì)比的，是為處理器提供必要的內(nèi)存帶寬一直是“一場(chǎng)艱苦的斗爭(zhēng)”。傳統(tǒng)內(nèi)存RDIMM傳輸帶寬的線性增長(zhǎng)態(tài)勢(shì)與CPU核心數(shù)量的指數(shù)增加速度不匹配，這是 AMD和英特爾在其主流處理器上轉(zhuǎn)向DDR5內(nèi)存的原因之一。

這也直接帶動(dòng)了DDR5市場(chǎng)的快速發(fā)展。市場(chǎng)調(diào)研機(jī)構(gòu)Omdia分析指出，對(duì)DDR5的市場(chǎng)需求從2020年開(kāi)始逐步顯現(xiàn)，到2024年，DDR5將占據(jù)整個(gè)DRAM市場(chǎng)份額的43%左右。

可以想象，如果上述現(xiàn)象一直持續(xù)下去，在超過(guò)一定的核心數(shù)量后，所有CPU都會(huì)出現(xiàn)帶寬分配不足的情況，從而無(wú)法充分發(fā)揮增加核心數(shù)量所帶來(lái)的優(yōu)勢(shì)，嚴(yán)重制約CPU性能的發(fā)揮，形成了所謂的“內(nèi)存墻”，難以滿足系統(tǒng)性能的平衡。

AI推理、大數(shù)據(jù)應(yīng)用、以及眾多高性能計(jì)算工作負(fù)載側(cè)也遇到了同樣的情形。以先進(jìn)駕駛員輔助系統(tǒng)(ADAS)為例，L2+/L3級(jí)別系統(tǒng)的復(fù)雜數(shù)據(jù)處理至少需要超過(guò)200GB/s的內(nèi)存帶寬；在L5級(jí)，如果車(chē)輛要能夠獨(dú)立地對(duì)周?chē)鷦?dòng)態(tài)環(huán)境做出反應(yīng)，將需要超過(guò)500GB/s的內(nèi)存帶寬。

這些內(nèi)存密集型計(jì)算之所以迫切需要大幅提高內(nèi)存系統(tǒng)的帶寬，以滿足多核CPU中各個(gè)內(nèi)核的數(shù)據(jù)吞吐要求，一是因?yàn)楦邘捠菑?fù)雜AI/ML算法的基本需求，二是相較于AI訓(xùn)練，AI推理更重視計(jì)算效率、時(shí)延、性價(jià)比等，而且AI推理需要應(yīng)用到不同的端側(cè)上，單純依靠堆砌額外數(shù)量的GPU和AI加速器，很難在成本、功耗、系統(tǒng)架構(gòu)等方面獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

因此，必須要找到更加高效的內(nèi)存數(shù)據(jù)傳輸與處理體系架構(gòu)，提高內(nèi)存利用效率，才能有效化解“內(nèi)存墻”問(wèn)題，才能讓龐大的數(shù)據(jù)和計(jì)算資源實(shí)現(xiàn)按需組合，并根據(jù)不同工作負(fù)載的需求動(dòng)態(tài)配置內(nèi)存資源。

這時(shí)，MRDIMM這樣新的內(nèi)存技術(shù)就逐漸走進(jìn)了人們的視野之中。那么，什么是MRDIMM？它有何神奇之處？接下來(lái)，就讓我們揭開(kāi)MRDIMM的“前世今生”。

釋放存儲(chǔ)帶寬的魔力

MRDIMM最早可追溯到DDR4世代的LRDIMM(Load Reduced DIMM，減載雙列直插內(nèi)存模塊)，該種類型的內(nèi)存模組旨在降低服務(wù)器內(nèi)存總線的負(fù)載，同時(shí)提高內(nèi)存的工作頻率和容量。

與服務(wù)器使用的傳統(tǒng)內(nèi)存模組RDIMM只采用RCD(Registered Clock Driver，寄存時(shí)鐘器)相比，LRDIMM新增了DB(Data Buffer，數(shù)據(jù)緩沖器)功能，這種設(shè)計(jì)不但降低了主板上的信號(hào)負(fù)載，還允許在模組上使用更大容量的內(nèi)存顆粒，從而能夠顯著提升系統(tǒng)內(nèi)存容量。

JEDEC當(dāng)時(shí)對(duì)于LRDIMM架構(gòu)曾有過(guò)不同方案的討論，最終采納了中國(guó)瀾起科技公司發(fā)明的“1+9”(1顆RCD+9顆DB)方案作為DDR4 LRDIMM的國(guó)際標(biāo)準(zhǔn)。這并不是一件容易的事情，要知道，在DDR4世代，全球只有IDT(后被日本瑞薩電子收購(gòu))、Rambus和瀾起科技三家公司可以提供RCD及DB芯片套片。而在貢獻(xiàn)DDR4 LRDIMM國(guó)際標(biāo)準(zhǔn)后，瀾起科技也于2021年入選JEDEC董事會(huì)，進(jìn)一步提升了自身的行業(yè)話語(yǔ)權(quán)。

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

資料來(lái)源：瀾起科技

進(jìn)入DDR5世代，盡管根據(jù)JEDEC的定義，LRDIMM演變?yōu)椤?顆RCD+10顆DB”的架構(gòu)，但由于DDR5內(nèi)存模組容量較DDR4有顯著增加，使得DDR5 LRDIMM的性價(jià)比優(yōu)勢(shì)逐步縮小，其在服務(wù)器內(nèi)存中的占比并不是很大。

此時(shí)，沿用了與LRDIMM類似的“1+10”技術(shù)架構(gòu)，即需要搭配1顆MRCD(多路復(fù)用寄存時(shí)鐘驅(qū)動(dòng)器)芯片和10顆MDB(多路復(fù)用數(shù)據(jù)緩沖器)芯片，能實(shí)現(xiàn)更高內(nèi)存帶寬的MRDIMM開(kāi)始登上歷史舞臺(tái)。

從工作原理角度來(lái)講，MRDIMM能顯著提升接口速度和內(nèi)存帶寬的關(guān)鍵，源于其在內(nèi)存模組上集成的多路復(fù)用器或數(shù)據(jù)緩沖器。得益于此，MRCD能夠在標(biāo)準(zhǔn)速率下同時(shí)生成四個(gè)芯片選擇信號(hào)，支持更復(fù)雜的內(nèi)存管理操作；MDB可以把兩個(gè)內(nèi)存陣列的傳輸數(shù)據(jù)組合為一個(gè)，一個(gè)內(nèi)存陣列可以傳輸64字節(jié)的數(shù)據(jù)，兩個(gè)內(nèi)存陣列同時(shí)操作就可以一次傳輸128字節(jié)數(shù)據(jù)，使DRAM一次可以向CPU傳輸128個(gè)字節(jié)的數(shù)據(jù)，實(shí)現(xiàn)傳輸速率的翻倍。這樣，帶寬的魔力就被徹底的釋放出來(lái)。

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

資料來(lái)源：Lenovo

MRDIMM的優(yōu)勢(shì)概括起來(lái)主要有三點(diǎn)：

1.速率大幅提升。相較于同時(shí)期RDIMM支持6400MT/s速率，第一代MRDIMM支持8800MT/s速率，提升幅度接近40%，這一提升幅度過(guò)去往往需要2-3代才能實(shí)現(xiàn)。而第二代和第三代MRDIMM的速度更是將達(dá)到12,800 MT/s和17,600 MT/s。

2.與DDR5良好的兼容性。MRDIMM完美兼容常規(guī)RDIMM的連接器和外形規(guī)格，對(duì)客戶來(lái)說(shuō)，無(wú)需對(duì)主板進(jìn)行任何改動(dòng)，就可輕松實(shí)現(xiàn)升級(jí)。

3.出色的穩(wěn)定性。MRDIMM全面繼承了RDIMM的糾錯(cuò)機(jī)制及RAS(可靠性、可用性和可維護(hù)性)功能，確保無(wú)論數(shù)據(jù)緩沖區(qū)中產(chǎn)生何種復(fù)雜的獨(dú)立多路復(fù)用請(qǐng)求，都能有效維護(hù)數(shù)據(jù)的完整性與準(zhǔn)確性。

目前來(lái)看，HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d這些科學(xué)計(jì)算類的應(yīng)用，以及大語(yǔ)言模型推理，是MRDIMM的最大受益者。

在美光和英特爾的一項(xiàng)聯(lián)合測(cè)試中，研究人員使用了英特爾Hibench基準(zhǔn)測(cè)試套件中的2.4TB數(shù)據(jù)集，在內(nèi)存容量相同的情況下，相較RDIMM，MRDIMM的運(yùn)算效率提高了1.2倍，使用容量翻倍的TFF MRDIMM時(shí)運(yùn)算效率提高了1.7倍，內(nèi)存與存儲(chǔ)之間的數(shù)據(jù)遷移減少了10倍。

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

資料來(lái)源：anandtech

MRDIMM也提升了AI推理的效率。在內(nèi)存容量相同的情況下運(yùn)行Meta Llama 3 8B大模型，使用MRDIMM后，詞元的吞吐量(Token throughput)是RDIMM的1.31倍，延遲降低24%，首個(gè)詞元生成時(shí)間(Time to first Token)降低13%，CPU利用效率提升26%，末級(jí)緩存(LLC)延遲降低20%。

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

資料來(lái)源：anandtech

上述優(yōu)勢(shì)使得MRDIMM一經(jīng)推出就受到產(chǎn)業(yè)界的廣泛關(guān)注。通過(guò)采用DDR5的物理和電氣標(biāo)準(zhǔn)，MRDIMM實(shí)現(xiàn)了內(nèi)存技術(shù)的突破，使CPU單核心的帶寬和容量得以擴(kuò)展，極大改善了大算力時(shí)代“內(nèi)存墻”桎梏，對(duì)于內(nèi)存密集型計(jì)算效率的提升意義重大。

盤(pán)點(diǎn)MRDIMM的主要玩家

2024年7月，美光科技宣布推出MRDIMM，支持32GB到256GB廣泛的容量選擇，涵蓋標(biāo)準(zhǔn)型和高型外形規(guī)格(TFF)，適用于高性能1U和2U服務(wù)器。根據(jù)美光的測(cè)試數(shù)據(jù)，與RDIMM(支持速率6400MT/s)相比，MRDIMM(支持速率8800MT/s)有效內(nèi)存帶寬提升高達(dá)39%，總線效率提升超過(guò)15%，延遲降低高達(dá)40%。

當(dāng)然，美光也不是第一個(gè)公開(kāi)宣布MRDIMM樣品的公司。三星在2024年6月宣布了自己的MRDIMM產(chǎn)品方案，該方案通過(guò)組合兩個(gè)DDR5組件，使現(xiàn)有DRAM組件的帶寬翻倍，可提供高達(dá)8.8Gb/s的數(shù)據(jù)傳輸速度。

而在更早之前的2022年底，SK海力士推出了用于特定英特爾服務(wù)器平臺(tái)的MCR-DIMM技術(shù)，允許高端服務(wù)器DIMM以最低8Gbps的數(shù)據(jù)速率運(yùn)行，較之當(dāng)時(shí)DDR5內(nèi)存產(chǎn)品(4.8 Gbps)相比，帶寬提高了80%。

英特爾2024年10月推出的至強(qiáng)6性能核(P-Core)處理器至強(qiáng)6900P，就將支持每秒8800MT的MRDIMM內(nèi)存作為產(chǎn)品亮點(diǎn)之一，獨(dú)立測(cè)試表明，使用MRDIMM的至強(qiáng)6處理器比使用傳統(tǒng)RDIMM的相同系統(tǒng)性能提升高達(dá)33%。同時(shí)，通過(guò)使用標(biāo)配的6400MT/s DDR5內(nèi)存和更快的MRDIMM內(nèi)存相結(jié)合的方式，英特爾可以處理對(duì)內(nèi)存非常敏感的工作負(fù)載，包括科學(xué)計(jì)算、AI等。

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

資料來(lái)源：英特爾

再回到MRDIMM本身，如前文所述，在MRDIMM實(shí)現(xiàn)雙倍帶寬的過(guò)程中，MDB芯片起到了至關(guān)重要的作用。目前全球可以提供完整MRCD/MDB芯片套片的供應(yīng)商包括瑞薩電子、Rambus和瀾起科技三家公司，這與DDR4世代的格局是一致的。

作為中國(guó)在內(nèi)存接口芯片市場(chǎng)上的標(biāo)桿型公司，2024年，瀾起科技DDR5內(nèi)存接口芯片出貨量在第三季度超過(guò)DDR4內(nèi)存接口芯片，其出貨占比將在第四季度進(jìn)一步增加，而MRCD/MDB芯片則實(shí)現(xiàn)超過(guò)7000萬(wàn)元人民幣的銷(xiāo)售收入。目前，瀾起科技第一代 MRCD/MDB 套片產(chǎn)品已成功實(shí)現(xiàn)量產(chǎn)，第二代 MRCD/MDB 套片的工程樣片已經(jīng)推出，并在近日完成了向全球主要內(nèi)存廠商的送樣工作，有望再次引領(lǐng)行業(yè)技術(shù)發(fā)展潮流。

瀾起科技第二代MRCD芯片支持高達(dá)12800MT/s的速率，可精確緩沖并重新驅(qū)動(dòng)來(lái)自內(nèi)存控制器的地址、命令、時(shí)鐘及控制信號(hào)。第二代MRCD芯片具有兩個(gè)子通道，每個(gè)子通道又分為兩個(gè)偽通道，以增加主機(jī)系統(tǒng)的總帶寬。同時(shí)，兩個(gè)子通道分別執(zhí)行CA和DPAR輸入信號(hào)的奇偶校驗(yàn)檢查，兩個(gè)偽通道分別接收CA(命令/地址)信號(hào)輸入并生成獨(dú)立的CA輸出信號(hào)。

當(dāng)DeepSeek改寫(xiě)AI敘事，突破“內(nèi)存墻”的MRDIMM將是下一個(gè)爆點(diǎn)？

資料來(lái)源：瀾起科技

與之協(xié)同工作的第二代MDB芯片同樣支持12800MT/s的數(shù)據(jù)速率。芯片主機(jī)側(cè)配備雙4位數(shù)據(jù)接口，運(yùn)行速度是DRAM側(cè)的兩倍；DRAM側(cè)設(shè)有四個(gè)4位數(shù)據(jù)接口，每個(gè)偽通道分配兩個(gè)。MDB可高效的將兩個(gè)DRAM側(cè)DQ信號(hào)多路復(fù)用為一個(gè)主機(jī)側(cè)DQ信號(hào)，并通過(guò)一個(gè)僅輸入的控制總線接口，用于連接MRCD。

性能躍升及生態(tài)完善將共同推動(dòng)MRDIMM的未來(lái)

從8,800MT/s到17,600MT/s，MRDIMM帶寬和性能的顯著提升對(duì)高性能計(jì)算、AI計(jì)算客戶來(lái)說(shuō)是頗具吸引力的�？梢灶A(yù)見(jiàn)，基于推理應(yīng)用的新一輪AI基礎(chǔ)設(shè)施建設(shè)將刺激終端對(duì)MRDIMM需求。

同時(shí)，考慮到第一代MRDIMM目前只有英特爾的Granite Rapids支持，行業(yè)相關(guān)生態(tài)仍處于初期，但從第二代MRDIMM開(kāi)始，隨著相關(guān)技術(shù)逐步成熟，業(yè)內(nèi)預(yù)計(jì)將有更多類型服務(wù)器CPU支持MRDIMM，行業(yè)生態(tài)將進(jìn)一步完善，并最終實(shí)現(xiàn)終端需求放量。

對(duì)內(nèi)存接口芯片廠商而言，考慮到一根MRDIMM需要標(biāo)配十顆MDB芯片，MRDIMM的普及勢(shì)必將大幅提升MDB芯片的需求，從而擴(kuò)大內(nèi)存接口芯片行業(yè)市場(chǎng)規(guī)模，全球三家內(nèi)存接口芯片廠商也均會(huì)受益于該項(xiàng)新技術(shù)的發(fā)展。

但與其他方案相比，瀾起科技在MRDIMM相關(guān)技術(shù)標(biāo)準(zhǔn)制定中具有的影響力，將有望成為其最強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)之一。從DDR4 DB到DDR5 DB，再到牽頭制定MDB芯片國(guó)際標(biāo)準(zhǔn)，瀾起科技在技術(shù)規(guī)范和兼容性上具備的權(quán)威性和前瞻性，能夠幫助生態(tài)伙伴更好地適應(yīng)未來(lái)行業(yè)的發(fā)展和變化，在市場(chǎng)競(jìng)爭(zhēng)中占據(jù)有利地位。加之高效的客戶支持，良好的產(chǎn)品兼容性, 以及與生態(tài)系統(tǒng)上下游廠商的深度合作, 都為瀾起科技在MRDIMM領(lǐng)域的競(jìng)爭(zhēng)力提供了堅(jiān)實(shí)的基礎(chǔ)。

相關(guān)熱詞： deepseek 內(nèi)存模組 openai 內(nèi)存墻內(nèi)存 gpt