智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西2月28日報(bào)道,剛剛,DeepSeek發(fā)布開源周第五彈Fire-Flyer文件系統(tǒng)(3FS),一種利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)的全部帶寬的并行文件系統(tǒng),適用于所有人的Thruster DeepSeek數(shù)據(jù)訪問。
在180節(jié)點(diǎn)集群中實(shí)現(xiàn)6.6 TiB/s的總讀取吞吐量
在25節(jié)點(diǎn)集群中,GraySort基準(zhǔn)測試的吞吐量為3.66 TiB/min
KVCache查找每個客戶端節(jié)點(diǎn)的峰值吞吐量為40+ GiB/s
具有強(qiáng)一致性語義的分解架構(gòu)
在V3/R1中訓(xùn)練數(shù)據(jù)預(yù)處理、數(shù)據(jù)集加載、檢查點(diǎn)保存/重新加載、嵌入向量搜索和KVCache查找以進(jìn)行推理
3FS → github.com/deepseek-ai/3FS
Smallpond 基于3FS的數(shù)據(jù)處理框架 → github.com/deepseek-ai/smallpond
評論區(qū)涌入一片夸聲,稱贊3FS速度快得驚人,為AI數(shù)據(jù)處理樹立了新標(biāo)桿極快的速度和無縫集成。
也有網(wǎng)友繼續(xù)催更:接下來我們需要視頻模型、V4、R2,全世界都在等!
還有人看熱鬧不嫌事大,在評論區(qū)曬出今天OpenAI新發(fā)布的GPT-4.5與DeepSeek最新淡季折扣價(jià)對比圖。
根據(jù)GitHub項(xiàng)目公開信息,今日新開源的3FS和Smallpond具體信息如下:
1、Fire-Flyer文件系統(tǒng)
Fire-Flyer文件系統(tǒng)(3FS)是一種高性能分布式文件系統(tǒng),旨在應(yīng)對AI訓(xùn)練和推理工作負(fù)載的挑戰(zhàn)。它利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)來提供共享存儲層,從而簡化分布式應(yīng)用程序的開發(fā)。
3FS的主要功能和優(yōu)勢包括:
(1)性能和可用性
分解式架構(gòu)結(jié)合了數(shù)千個SSD的吞吐量和數(shù)百個存儲節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬,使應(yīng)用程序能夠以不受位置影響的方式訪問存儲資源。強(qiáng)一致性實(shí)現(xiàn)帶有分配查詢(CRAQ)的鏈?zhǔn)綇?fù)制以實(shí)現(xiàn)強(qiáng)一致性,從而使應(yīng)用程序代碼簡單且易于推理。文件接口開發(fā)由事務(wù)鍵值存儲(例如FoundationDB)支持的無狀態(tài)元數(shù)據(jù)服務(wù)。文件接口眾所周知且隨處可用。無需學(xué)習(xí)新的存儲API。
(2)多樣化的工作負(fù)載
數(shù)據(jù)準(zhǔn)備將數(shù)據(jù)分析管道的輸出組織成分層目錄結(jié)構(gòu),并有效地管理大量中間輸出。數(shù)據(jù)加載器通過跨計(jì)算節(jié)點(diǎn)隨機(jī)訪問訓(xùn)練樣本,消除了預(yù)取或混洗數(shù)據(jù)集的需要。檢查點(diǎn)支持大規(guī)模訓(xùn)練的高吞吐量并行檢查點(diǎn)。用于推理的KVCache提供了一種基于DRAM的緩存的經(jīng)濟(jì)高效的替代方案,可提供高吞吐量和更大的容量。
其表現(xiàn)如下:
(1)峰值吞吐量
下圖展示了一個大型3FS集群的讀壓測吞吐情況。該集群由180個存儲節(jié)點(diǎn)組成,每個存儲節(jié)點(diǎn)配備2×200Gbps InfiniBand網(wǎng)卡和16個14 TiB NVMe SSD。大約500+個客戶端節(jié)點(diǎn)用于讀壓測,每個客戶端節(jié)點(diǎn)配置1x200Gbps InfiniBand網(wǎng)卡。在訓(xùn)練作業(yè)的背景流量下,最終聚合讀吞吐量達(dá)到約6.6 TiB/s。
(2)灰度排序
DeepSeek利用GraySort基準(zhǔn)對smallpond進(jìn)行了評估,該基準(zhǔn)可衡量大規(guī)模數(shù)據(jù)集的排序性能。其實(shí)現(xiàn)采用兩階段方法:(1) 使用鍵的前綴位通過shuffle對數(shù)據(jù)進(jìn)行分區(qū),以及 (2) 分區(qū)內(nèi)排序。兩個階段都從3FS讀取數(shù)據(jù)/向3FS寫入數(shù)據(jù)。
測試集群由25個存儲節(jié)點(diǎn)(2個NUMA域/節(jié)點(diǎn)、1個存儲服務(wù)/NUMA、2×400Gbps NIC/節(jié)點(diǎn))和50個計(jì)算節(jié)點(diǎn)(2個NUMA域、192個物理核心、2.2 TiB RAM和1×200 Gbps NIC/節(jié)點(diǎn))組成。對8192個分區(qū)中的110.5 TiB數(shù)據(jù)進(jìn)行排序耗時30分14秒,平均吞吐量為3.66 TiB/分鐘。
(3)KVCache
KVCache是一種用于優(yōu)化大語言模型推理過程的技術(shù)。它通過在解碼器層中緩存先前標(biāo)記的鍵和值向量來避免冗余計(jì)算。上方的圖展示了所有KVCache客戶端的讀取吞吐量,突出顯示了峰值和平均值,峰值吞吐量高達(dá)40 GiB/s。下圖顯示了同一時間段內(nèi)垃圾回收(GC)中刪除操作的IOPS。
開發(fā):
2、Smallpond
Smallpond是一個基于DuckDB和3FS的一個輕量級數(shù)據(jù)處理框架,特色包括:
由DuckDB提供支持的高性能數(shù)據(jù)處理
可擴(kuò)展以處理PB級數(shù)據(jù)集
操作簡單,無需長時間運(yùn)行服務(wù)
開發(fā):