展會信息港展會大全

揭秘馬斯克Colossus AI超算:集成了10萬個英偉達(dá)H100 GPU
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-30 13:12:27   瀏覽:0次  

導(dǎo)讀:劃重點(diǎn)01馬斯克旗下人工智能企業(yè)xAI的Colossus AI超級計(jì)算機(jī)集群已集成100000個英偉達(dá)H100 GPU,成為全球最強(qiáng)大的AI超級計(jì)算機(jī)集群。02該集群采用超威電腦(Supermicro)的服務(wù)器,基于NVIDIA HGX H100方案,每個服務(wù)器有8個H100 GPU。03除此之外,Colossus集群中的存儲和CPU計(jì)算機(jī)服務(wù)器也采用Supermicro機(jī)箱,但詳細(xì)信息尚未曝光。04為了應(yīng)對突發(fā)停電,該超級計(jì)算機(jī)集群外面還 ......

劃重點(diǎn)

01馬斯克旗下人工智能企業(yè)xAI的Colossus AI超級計(jì)算機(jī)集群已集成100000個英偉達(dá)H100 GPU,成為全球最強(qiáng)大的AI超級計(jì)算機(jī)集群。

02該集群采用超威電腦(Supermicro)的服務(wù)器,基于NVIDIA HGX H100方案,每個服務(wù)器有8個H100 GPU。

03除此之外,Colossus集群中的存儲和CPU計(jì)算機(jī)服務(wù)器也采用Supermicro機(jī)箱,但詳細(xì)信息尚未曝光。

04為了應(yīng)對突發(fā)停電,該超級計(jì)算機(jī)集群外面還綁有特斯拉Megapack電池,可在毫秒之間快速提供備用電源。

以上內(nèi)容由騰訊混元大模型生成,僅供參考

揭秘馬斯克Colossus AI超算:集成了10萬個英偉達(dá)H100 GPU

10月29日消息,YouTube視頻博主 ServeTheHome 首次曝光了埃隆馬斯克 (Elon Musk)旗下人工智能企業(yè)xAI的Colossus AI 超級計(jì)算機(jī)集群,其集成了100000個英偉達(dá)(NVIDIA)H100 GPU,號稱是目前全球最強(qiáng)大的AI超級計(jì)算機(jī)集群。

早在今年7月下旬,馬斯克就在“X”平臺上宣布,自己已經(jīng)啟動了“世界上最強(qiáng)大的 AI 集群”。這座AI集群從開始建設(shè)到完成組裝僅花了122天就完成了,目前已經(jīng)上線運(yùn)行了約3個月。

根據(jù)ServeTheHome曝光的信息來看,龐大的Colossus AI超級計(jì)算機(jī)集群采用的是超威電腦(Supermicro)的服務(wù)器,其基于NVIDIA HGX H100方案,每個服務(wù)器中擁有8個H100 GPU,封裝在 Supermicro 的 4U 通用 GPU 液冷系統(tǒng)內(nèi),為每個 GPU 提供簡單的熱插拔液冷。這些服務(wù)器裝載在機(jī)架內(nèi),每個機(jī)架可容納 8 臺服務(wù)器,也就是說每個機(jī)架內(nèi)有 64 個 GPU。1U 歧管夾在每個 HGX H100 之間,提供服務(wù)器所需的液體冷卻。每個機(jī)架的底部是另一個 Supermicro 4U 單元,這次配備了冗余泵系統(tǒng)和機(jī)架監(jiān)控系統(tǒng)。

揭秘馬斯克Colossus AI超算:集成了10萬個英偉達(dá)H100 GPU

△四組 xAI 的 HGX H100 服務(wù)器機(jī)架,每組可容納八臺服務(wù)器。(圖片來源:ServeTheHome)

揭秘馬斯克Colossus AI超算:集成了10萬個英偉達(dá)H100 GPU

△xAI Colossus GPU 服務(wù)器的后部訪問。每臺服務(wù)器有 9 根以太網(wǎng)電纜,每臺服務(wù)器有 4 個電源。電源和液體冷卻軟管也可見。(圖片來源:ServeTheHome)

這些機(jī)架以 8 個為一組配對,每個陣列有 512 個 GPU。每臺服務(wù)器都有四個冗余電源,GPU 機(jī)架的后部露出三相電源、以太網(wǎng)交換機(jī)和一個提供所有液體冷卻的機(jī)架大小的歧管。Colossus 集群中有超過 1500 個 GPU 機(jī)架,或近 200 個機(jī)架陣列。據(jù)英偉達(dá)首席執(zhí)行官黃仁勛稱,這 200 個陣列的 GPU 僅用了三周時間就完成了安裝。

由于 AI 超級集群不斷訓(xùn)練模型的高帶寬要求,xAI 在其網(wǎng)絡(luò)互連性方面提供了超大的帶寬。目前每個顯卡都有一個 400GbE 的專用 NIC(網(wǎng)絡(luò)接口控制器),每臺服務(wù)器還有一個額外的 400Gb NIC。這意味著每臺 HGX H100 服務(wù)器都有每秒 3.6 TB 的以太網(wǎng)速率。整個集群都在以太網(wǎng)上運(yùn)行,而不是 InfiniBand 或其他在超級計(jì)算領(lǐng)域標(biāo)配的連接。

揭秘馬斯克Colossus AI超算:集成了10萬個英偉達(dá)H100 GPU

△仰望一大片的黃色以太網(wǎng)電纜,將 xAI Colossus 集群連接在一起。多層過寬的電纜線路嵌入天花板中。(圖片來源:ServeTheHome)

揭秘馬斯克Colossus AI超算:集成了10萬個英偉達(dá)H100 GPU

△xAI 的 Colossus CPU 計(jì)算服務(wù)器,看起來與該站點(diǎn)中也廣泛使用的 Supermicro 存儲服務(wù)器完全相同。(圖片來源:ServeTheHome)

當(dāng)然,像 xAI 旗下Grok 3 聊天機(jī)器人這樣基于訓(xùn)練 AI 模型的超級計(jì)算機(jī)需要的不僅僅是 GPU 才能運(yùn)行。Colossus集群當(dāng)中的存儲和 CPU 計(jì)算機(jī)服務(wù)器的詳細(xì)信息仍未曝光,不過這些服務(wù)器也大多采用 Supermicro 機(jī)箱。一波又一波的 NVMe 轉(zhuǎn)發(fā) 1U 服務(wù)器內(nèi)部帶有某種 x86 平臺 CPU,可容納存儲和 CPU 計(jì)算,還具有后入式液體冷卻功能。

另外,在該超級計(jì)算機(jī)集群的外面,還可以看到一些大量捆綁的特斯拉 Megapack 電池(每個最多可容納 3.9 MWh)。該電池陣列的是為了應(yīng)對突發(fā)停電的臨時備用電源,其可以在毫秒之間快速提供供電,相比柴油發(fā)電機(jī)反應(yīng)要快得多,可以使得有足夠時間去啟動其他備用電源。

編輯:芯智訊-浪客劍

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港