展會(huì)信息港展會(huì)大全

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-12-16 09:59:15   瀏覽:229次  

導(dǎo)讀:智東西(公眾號(hào):zhidxcom)作者 | ZeR0編輯 | 漠影在今年的云計(jì)算產(chǎn)業(yè)盛會(huì)AWS re:Invent上,亞馬遜云科技(AWS)少見(jiàn)地公布了大量關(guān)于硬件基礎(chǔ)設(shè)施及芯片的細(xì)節(jié)信息,包括自研服務(wù)器CPU Graviton系列、自研AI芯片Trainium系列、AI超級(jí)服務(wù)器、最大AI服務(wù)器集群等。這場(chǎng)開(kāi)誠(chéng)布公的分享,既讓我們窺得這家全球最大云計(jì)算巨頭深厚的硬件基建功底,也讓我們飽覽了從CPU研發(fā)策略、 ......

智東西(公眾號(hào):zhidxcom)

作者 | ZeR0

編輯 | 漠影

在今年的云計(jì)算產(chǎn)業(yè)盛會(huì)AWS re:Invent上,亞馬遜云科技(AWS)少見(jiàn)地公布了大量關(guān)于硬件基礎(chǔ)設(shè)施及芯片的細(xì)節(jié)信息,包括自研服務(wù)器CPU Graviton系列、自研AI芯片Trainium系列、AI超級(jí)服務(wù)器、最大AI服務(wù)器集群等。

這場(chǎng)開(kāi)誠(chéng)布公的分享,既讓我們窺得這家全球最大云計(jì)算巨頭深厚的硬件基建功底,也讓我們飽覽了從CPU研發(fā)策略、先進(jìn)封裝、背面供電、AI芯片脈動(dòng)陣列到芯片互連、AI網(wǎng)絡(luò)的各種底層技術(shù)創(chuàng)新。尤其是對(duì)于云計(jì)算基礎(chǔ)設(shè)施、數(shù)據(jù)中心芯片設(shè)計(jì)從業(yè)者而言,其中有很多值得細(xì)品的經(jīng)驗(yàn)和思路。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

大會(huì)期間,亞馬遜云科技計(jì)算與網(wǎng)絡(luò)副總裁Dave Brown還與智東西等少數(shù)媒體進(jìn)一步就基礎(chǔ)設(shè)施與芯片研發(fā)的策略和細(xì)節(jié)進(jìn)行交流。他告訴智東西,Trainium3基本上所有設(shè)計(jì)都會(huì)圍繞生成式AI,AWS已披露Trainium3是其首款采用3nm工藝的芯片,算力上一代的2倍、功耗降低40%,但目前透露技術(shù)細(xì)節(jié)可能為時(shí)尚早。他還劇透說(shuō)亞馬遜云科技預(yù)計(jì)明年會(huì)逐步發(fā)布更多細(xì)節(jié)。

一、CPU設(shè)計(jì)理念:不為基準(zhǔn)測(cè)試而造芯

亞馬遜云科技的自研服務(wù)器CPU和AI芯片均已在其數(shù)據(jù)中心落地,被許多知名IT企業(yè)采用。連蘋(píng)果都是其座上賓,在構(gòu)建Apple Intelligence等AI服務(wù)的背后用到了Graviton3、Inferentia2、Trainium2等亞馬遜云科技自研芯片。

據(jù)Dave Brown分享,亞馬遜云科技數(shù)據(jù)中心里用到的服務(wù)器CPU中,過(guò)去兩年有超過(guò)50%的新增CPU容量是其自研服務(wù)器CPU芯片Gravtion。全球最大購(gòu)物節(jié)之一亞馬遜Prime Day有超過(guò)25萬(wàn)個(gè)Graviton CPU支持操作。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

在2018年,亞馬遜云科技看到Arm核心發(fā)展變快,萌生了結(jié)合這種技術(shù)曲線與亞馬遜云科技客戶(hù)需求開(kāi)發(fā)一個(gè)定制通用處理器的念頭。Graviton由此誕生,其推出和落地也帶來(lái)了Arm芯片真正進(jìn)入數(shù)據(jù)中心的時(shí)刻。

今天,Graviton被幾乎每個(gè)亞馬遜云科技客戶(hù)廣泛使用。90%的前1000個(gè)Amazon EC2客戶(hù)都開(kāi)始使用Graviton。

Graviton4是當(dāng)前最強(qiáng)大的亞馬遜云科技自研服務(wù)器CPU,每個(gè)核心提供30%更多的計(jì)算能力,vCPU數(shù)量和內(nèi)存是上一代的3倍,尤其適用于大型數(shù)據(jù)庫(kù)、復(fù)雜分析等要求最高的企業(yè)工作負(fù)載。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

Dave Brown強(qiáng)調(diào)說(shuō),在設(shè)計(jì)芯片時(shí),亞馬遜云科技不是奔著贏得基準(zhǔn)測(cè)試,而是專(zhuān)注于實(shí)際工作負(fù)載性能。

在他看來(lái),業(yè)界熱衷于優(yōu)化基準(zhǔn)測(cè)試,就像是“通過(guò)100米短跑來(lái)訓(xùn)練馬拉松”。實(shí)際工作負(fù)載的行為與整潔的基準(zhǔn)測(cè)試截然不符,它們是混亂的、不可預(yù)測(cè)的,真實(shí)工作負(fù)載遇到的問(wèn)題可能與微基準(zhǔn)測(cè)試完全不同。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

比如,理論上,Graviton3的性能比Graviton2提高了30%,但測(cè)試Nginx時(shí)性能提升多達(dá)60%,因?yàn)閬嗰R遜云科技極大減少了分支錯(cuò)誤預(yù)測(cè)。Graviton4也類(lèi)似,微基準(zhǔn)測(cè)試分?jǐn)?shù)比上一代提高了25%,運(yùn)行真實(shí)MySQL工作負(fù)載的表現(xiàn)則足足提高了40%。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

現(xiàn)代CPU就像一個(gè)復(fù)雜的匯編管道,前端獲取和解碼指令,后端執(zhí)行指令。

在評(píng)估性能時(shí),亞馬遜云科技會(huì)查看不同工作負(fù)載對(duì)CPU微架構(gòu)的壓力,比如工作負(fù)載是否對(duì)前端停擺敏感,前端停擺受分支數(shù)量、分支目標(biāo)或指令等因素的影響,或者后端停頓受L1、L2和L3緩存中的數(shù)據(jù)以及指令窗口大小的影響。

對(duì)于每一代的Graviton,客戶(hù)都可以簡(jiǎn)單地切換到最新的實(shí)例類(lèi)型,并立即看到更好的性能。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

在安全性上,亞馬遜云科技還加密了Graviton4與Nitro之間的PCIe鏈路,做到更極致的全流程安全防護(hù)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

二、高性能芯片設(shè)計(jì)的關(guān)鍵黑科技:先進(jìn)封裝與背面供電

幾年前,封裝還很簡(jiǎn)單,基本上是一種封裝單個(gè)芯片并將其連接到主板的方法。但現(xiàn)在這個(gè)方案變得先進(jìn)很多。你可以把先進(jìn)封裝想象成用一種叫做中介層(interposer)的特殊設(shè)備把幾個(gè)芯片連接在一個(gè)封裝里。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

中介層本身實(shí)際上是一個(gè)Chiplet,它作為一個(gè)微型主板,提供了連接芯片的能力,其帶寬是普通PCB主板的10倍。

Graviton3和Graviton4都采用了先進(jìn)封裝技術(shù)。Graviton4有7個(gè)Chiplet,中間大芯片是計(jì)算核心,外圍更小的芯片做一些事情,比如允許芯片訪問(wèn)內(nèi)存和系統(tǒng)總線的其他部分。通過(guò)分離計(jì)算核心,亞馬遜云科技有效地將Graviton4的核心數(shù)量增加50%。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這種方法對(duì)Graviton非常有幫助,但引入AI芯片設(shè)計(jì)中會(huì)遇到一些挑戰(zhàn)。

2018年,看到加速器實(shí)例和深度學(xué)習(xí)趨勢(shì)后,亞馬遜云科技決定構(gòu)建AI芯片。其首款自研AI芯片是2019年的Inferentia,能夠切實(shí)降低小型推理工作負(fù)載的成本,比如亞馬遜Alexa通過(guò)遷移到Inferentia節(jié)省了大量資金。

2022年,亞馬遜云科技推出了其首款自研AI訓(xùn)練芯片Trainium1,并實(shí)現(xiàn)可將在Trainium1上運(yùn)行的工作負(fù)載節(jié)省約50%。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

亞馬遜云科技高級(jí)副總裁Peter DeSantis在re:Invent大會(huì)現(xiàn)場(chǎng)展示了Trainium2的封裝,里面有兩顆計(jì)算芯片并排放在中間。其計(jì)算die的晶體管數(shù)量是Trainium1計(jì)算die的2.2倍。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

想在一個(gè)系統(tǒng)上獲得最多的計(jì)算和內(nèi)存,要用先進(jìn)的封裝或制造技術(shù)來(lái)制造大芯片。Trainium2上就是這樣做的。但這遇到了第一個(gè)工程極限芯片制造有尺寸限制,在800平方毫米左右。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

每個(gè)計(jì)算芯片旁邊的兩顆芯片是HBM內(nèi)存堆棧,每個(gè)計(jì)算芯片Chiplet通過(guò)CoWoS-S/R封裝與兩個(gè)HBM堆棧通信。通過(guò)堆疊芯片,可將更多內(nèi)存裝入相同區(qū)域,從而減少消耗、釋放的能量。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

那為什么不能把封裝做得更大呢?這就是第二個(gè)限制所在。

今天的封裝實(shí)際上被限制在最大芯片尺寸的3倍左右。假如將計(jì)算芯片和HBM取出,可以看到中間層,下面有用來(lái)連接芯片和中介器的微凸點(diǎn)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這是亞馬遜云科技旗下Annapurna芯片團(tuán)隊(duì)制作的一張圖片。他們沿著紫色的線仔細(xì)切出了芯片的橫截面,然后用顯微鏡從側(cè)面放大圖像。左上角是計(jì)算芯片,旁邊有HBM模塊,HBM模塊層都位于一個(gè)薄的連續(xù)晶圓上。芯片和中間層頂部之間的電連接非常小,每個(gè)大約是100μm,比細(xì)鹽粒還小。

而要讓芯片保持穩(wěn)定連接,就必須得限制封裝大小。

同時(shí),Trainium2還引入了背面供電,把電源線挪到晶圓背面,以減少布線擁塞。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

半導(dǎo)體利用微小電荷的存在或不存在來(lái)存儲(chǔ)和處理信息,當(dāng)芯片遇到電壓下降時(shí),它們通常得等待到供電系統(tǒng)調(diào)整。芯片在完成計(jì)算任務(wù)需要提供大量的能量,為了在低電壓下傳輸所有的能量,需要使用大電線,減少電路傳輸長(zhǎng)度,從而來(lái)避免所謂的電壓下降。

三、打造最強(qiáng)AI硬件猛獸,背后的技術(shù)秘方

訓(xùn)練更大的模型,需要構(gòu)建更好的AI基礎(chǔ)設(shè)施、更強(qiáng)大的服務(wù)器集群。這要求有更好的AI芯片和AI網(wǎng)絡(luò)。

在re:Invent大會(huì)上,亞馬遜云科技著重公布了幾個(gè)重磅AI硬件產(chǎn)品。

一是亞馬遜和Anthropic正在合作構(gòu)建的Project Rainier,一個(gè)擁有數(shù)十萬(wàn)顆Trainium2芯片的超級(jí)服務(wù)器集群。這個(gè)集群將具備Anthropic目前用于訓(xùn)練其領(lǐng)先的Claude模型的集群5倍的計(jì)算能力。

二是能訓(xùn)練和部署世界上最大模型的Trainum2超級(jí)服務(wù)器。它連接了4個(gè)計(jì)算節(jié)點(diǎn),集成了64個(gè)Trainium2芯片,將峰值算力擴(kuò)展至83.2PFLOPS,稀疏算力更是高至332.8PFLOPS,將單個(gè)實(shí)例的計(jì)算、內(nèi)存和網(wǎng)絡(luò)性能提高4倍。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

三是亞馬遜云科技迄今做機(jī)器學(xué)習(xí)訓(xùn)練最高能效的服務(wù)器Trainium2服務(wù)器。一個(gè)Trainium2服務(wù)器容納有16個(gè)Trainium2芯片,可在單個(gè)計(jì)算節(jié)點(diǎn)提供20.8PFLOPS的計(jì)算能力。由Trainium2芯片提供支持的Amazon EC2 Trn2實(shí)例也正式可用,可提供比當(dāng)前GPU驅(qū)動(dòng)的實(shí)例高出30%~40%的性?xún)r(jià)比。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這些Trainium2芯片通過(guò)超快的NeuronLink互連技術(shù)連接在一起。

在芯片設(shè)計(jì)上,Dave Brown講解了CPU、GPU、NPU三類(lèi)芯片微架構(gòu)的不同。

CPU針對(duì)大量復(fù)雜邏輯的快速執(zhí)行,每個(gè)緩存對(duì)應(yīng)控制引擎和執(zhí)行引擎。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

GPU主要用于數(shù)據(jù)并行,控制單元較少,執(zhí)行單元多。其運(yùn)算過(guò)程會(huì)涉及一些數(shù)據(jù)在緩存和HBM內(nèi)存之間的倒換。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

為了減少無(wú)效的內(nèi)存占用,亞馬遜云科技Trainium芯片采用的是脈動(dòng)陣列(Systolic Arrays)架構(gòu),與谷歌TPU如出一轍,直接傳遞計(jì)算結(jié)果,能夠降低內(nèi)存帶寬需求。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

在生態(tài)建設(shè)上,亞馬遜云科技提供了一個(gè)其自研AI芯片的專(zhuān)用編譯語(yǔ)言新Neuron Kernel接口(NKI),用于方便開(kāi)發(fā)者直接對(duì)其AI芯片進(jìn)行深度調(diào)試,從而更充分地挖掘芯片性能。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

單芯片的性能強(qiáng),在實(shí)際落地中未必管用。要支撐起業(yè)界最大的大模型訓(xùn)練和推理,必須能夠提高大量芯片互連時(shí)的系統(tǒng)級(jí)算力利用率。

亞馬遜云科技自研的NeuronLink芯片到芯片互連技術(shù)可將多個(gè)Trainium2服務(wù)器組合成一個(gè)邏輯服務(wù)器,帶寬為2TB/s,延遲為1μs。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

與傳統(tǒng)高速網(wǎng)絡(luò)協(xié)議網(wǎng)絡(luò)不同的是,NeuronLink服務(wù)器可以直接訪問(wèn)彼此的內(nèi)存,從而創(chuàng)造出一臺(tái)“超級(jí)服務(wù)器”。

Peter DeSantis也花時(shí)間科普了一下為什么大模型推理越來(lái)越重要,以及它對(duì)AI基礎(chǔ)設(shè)施提出了怎樣的新要求。

大模型推理有兩種工作負(fù)載預(yù)填充(prefill)和token生成。預(yù)填充是輸入編碼,其中處理提示和其他模型輸入,為token生成做準(zhǔn)備。這個(gè)過(guò)程需要大量的計(jì)算資源來(lái)將輸入轉(zhuǎn)換成傳遞給下一個(gè)進(jìn)程的數(shù)據(jù)結(jié)構(gòu)。完成后,計(jì)算出的數(shù)據(jù)結(jié)構(gòu)將被傳遞給第二個(gè)推理工作負(fù)載,由它生成token。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

Token生成的有趣之處在于,模型按順序生成每個(gè)token,一次一個(gè)。這對(duì)AI基礎(chǔ)設(shè)施提出了非常不同的要求,每次生成token時(shí),必須從內(nèi)存中讀取整個(gè)模型,因此會(huì)對(duì)內(nèi)存總線產(chǎn)生大量需求,但它只使用少量的計(jì)算,幾乎與預(yù)填充工作負(fù)載完全相反。

這些工作量差異對(duì)AI基礎(chǔ)設(shè)施意味著什么呢?一旦token開(kāi)始生成,只需要以超過(guò)人類(lèi)閱讀速度的速度生成它們。這不是很快,但當(dāng)模型越來(lái)越多地用于agentic工作流,在進(jìn)入工作流的下一步之前,需要生成整個(gè)響應(yīng)。所以現(xiàn)在客戶(hù)關(guān)心的是快速預(yù)填充和快速token生成。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

對(duì)真正快速推理的渴望,意味著AI推理工作負(fù)載也尋求使用最強(qiáng)大的AI服務(wù)器。這兩種不同工作負(fù)荷是互補(bǔ)的。預(yù)填充需要更多的計(jì)算,token生成需要更多的內(nèi)存帶寬,所以在同一個(gè)強(qiáng)大的AI服務(wù)器上運(yùn)行它們可以幫助實(shí)現(xiàn)出色的性能和效率。

這就解釋了亞馬遜云科技力推自研AI服務(wù)器及集群的核心驅(qū)動(dòng)力。

四、如何構(gòu)建AI網(wǎng)絡(luò)?10p10u架構(gòu)、定制光纖電纜及插頭、混合式路由協(xié)議

云網(wǎng)絡(luò)需要快速擴(kuò)展以適應(yīng)增長(zhǎng),亞馬遜云科技每天向全球數(shù)據(jù)中心添加數(shù)千臺(tái)服務(wù)器。但AI的擴(kuò)展速度更快。

據(jù)Peter DeSantis分享,亞馬遜云科技的云網(wǎng)絡(luò)在可靠性方面已經(jīng)做到99.999%。AI工作負(fù)載對(duì)規(guī)模、速度、可靠性的要求更甚。如果AI網(wǎng)絡(luò)經(jīng)歷了短暫的故障,整個(gè)集群的訓(xùn)練過(guò)程可能會(huì)延遲,導(dǎo)致資源閑置和訓(xùn)練時(shí)間延長(zhǎng)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

如何在云網(wǎng)絡(luò)的創(chuàng)新基礎(chǔ)上構(gòu)建一個(gè)AI網(wǎng)絡(luò)呢?亞馬遜云科技打造了10p10u網(wǎng)絡(luò)。

10p10u的物理架構(gòu)與傳統(tǒng)CLOS網(wǎng)絡(luò)架構(gòu)區(qū)別不大,亮點(diǎn)是實(shí)現(xiàn)了10Pbps傳輸帶寬、10μs網(wǎng)絡(luò)延遲,連起來(lái)后組成可用于訓(xùn)練的超級(jí)集群。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

下圖展示了亞馬遜云科技在不同網(wǎng)絡(luò)結(jié)構(gòu)中安裝的鏈接數(shù)量,其中10p10u在過(guò)去12個(gè)月已安裝超過(guò)300萬(wàn)條。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

結(jié)構(gòu)如下圖所示,采用簡(jiǎn)化的無(wú)電纜機(jī)箱設(shè)計(jì),左側(cè)是8張Nitro卡,右側(cè)是兩顆Trainium2加速器。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

大量的光纜進(jìn)入機(jī)架,要構(gòu)建這樣的密集網(wǎng)絡(luò)結(jié)構(gòu),需要非常精確的互連交換機(jī),并要應(yīng)對(duì)復(fù)雜性大大增加的挑戰(zhàn)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

針對(duì)布線復(fù)雜問(wèn)題,亞馬遜云科技研制了一些特殊的光纖電纜、光纖插頭,并針對(duì)超大規(guī)模集群打造了一種全新網(wǎng)絡(luò)路由協(xié)議。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

其中一個(gè)創(chuàng)新是開(kāi)發(fā)了一個(gè)定制的光纖電纜Fiber optical trunk cable?梢园阉(dāng)成一根超級(jí)電纜,它將16根獨(dú)立的光纖電纜組合成一個(gè)堅(jiān)固的連接器,能夠大大簡(jiǎn)化組裝過(guò)程,消除連接錯(cuò)誤的風(fēng)險(xiǎn)。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

使用主干連接器將在AI機(jī)架上的安裝時(shí)間縮短了54%,而且做到看起來(lái)更整潔了。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

還有定制光纖插頭Firefly Optic Plug。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

這個(gè)巧妙的低成本設(shè)備就像一個(gè)微型信號(hào)反射器,支持在機(jī)架到達(dá)數(shù)據(jù)中心之前進(jìn)行全面測(cè)試和驗(yàn)證網(wǎng)絡(luò)連接。這意味著服務(wù)器到達(dá)時(shí),不會(huì)浪費(fèi)任何時(shí)間調(diào)試、布線。

此外,即使是微小的灰塵顆粒,也會(huì)顯著降低完整性并造成網(wǎng)絡(luò)性能問(wèn)題。而Firefly Optic Plug具有雙重保護(hù)密封功能,可防止灰塵顆粒進(jìn)入光纖連接。

最后一個(gè)挑戰(zhàn)是提供更高的網(wǎng)絡(luò)可靠性。

亞馬遜云科技對(duì)光鏈路的可靠性做了很多優(yōu)化,將失敗率降低到0.002以下。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

AI網(wǎng)絡(luò)中最大的故障來(lái)源是光鏈路。光鏈路是微型激光模塊,在電纜上發(fā)送和接收光信號(hào)。這些失敗不可能被完全消除,因此需要考慮如何減少失敗的影響。

每個(gè)網(wǎng)絡(luò)交換機(jī)都需要數(shù)據(jù)來(lái)告訴它們?nèi)绾温酚蓴?shù)據(jù)包。在AI網(wǎng)絡(luò)中,這個(gè)地圖可能需要考慮數(shù)十萬(wàn)條路徑。每次光鏈路出現(xiàn)故障,映射就需要更新。

如何快速而可靠地做到這一點(diǎn)?最簡(jiǎn)單的方法是集中管理映射。

優(yōu)化網(wǎng)絡(luò)聽(tīng)起來(lái)很吸引人,但當(dāng)網(wǎng)絡(luò)規(guī)模龐大時(shí),中央控制就會(huì)成為瓶頸。檢測(cè)故障會(huì)很困難,交換機(jī)更新可能非常緩慢,而且中央控制器是單點(diǎn)故障。這就是為什么大型網(wǎng)絡(luò)通常使用BGP和OSPF等協(xié)議去中心化的原因。

然而去中心化的方案也不完美。在大型網(wǎng)絡(luò)中,當(dāng)鏈路出現(xiàn)故障時(shí),網(wǎng)絡(luò)交換機(jī)需要花費(fèi)大量時(shí)間進(jìn)行協(xié)作,并為網(wǎng)絡(luò)找到新的最優(yōu)映射。

也就是說(shuō),在面對(duì)超大規(guī)模集群組網(wǎng)時(shí),集中式和分布式的傳統(tǒng)路由協(xié)議都面臨挑戰(zhàn)。

面臨次優(yōu)選擇時(shí),則需要開(kāi)辟一條新的道路。對(duì)此,亞馬遜云科技研發(fā)了一種全新的混合式網(wǎng)絡(luò)路由協(xié)議SIDR(Scalable Intent Driven Routing),通過(guò)將集中式和分布式控制的優(yōu)勢(shì)相結(jié)合,能在很短時(shí)間內(nèi)重新規(guī)劃網(wǎng)絡(luò)路徑,為超大規(guī)模集群提供更好的快速故障檢測(cè)、響應(yīng)和恢復(fù)能力。

SIDR可以簡(jiǎn)單理解成讓中央計(jì)劃者將網(wǎng)絡(luò)分解成一個(gè)結(jié)構(gòu),這個(gè)結(jié)構(gòu)可以下推到網(wǎng)絡(luò)中的所有交換機(jī)。這樣它們看到故障時(shí),就能做出快速、自主的決定。 結(jié)果,SIDR能在1秒內(nèi)響應(yīng)故障,而且在亞馬遜云科技網(wǎng)絡(luò)上做到比其他替代方法快10倍。其他網(wǎng)絡(luò)可能還在重新計(jì)算路線,10p10u網(wǎng)絡(luò)已經(jīng)恢復(fù)工作了。

亞馬遜云科技最強(qiáng)AI硬件猛獸背后,工程細(xì)節(jié)詳細(xì)解讀

結(jié)語(yǔ):云大廠自研芯片的風(fēng)向標(biāo)

作為在自研芯片落地上最成功的云計(jì)算大廠之一,亞馬遜云科技的芯片設(shè)計(jì)經(jīng)驗(yàn)、自研芯片對(duì)云業(yè)務(wù)的實(shí)際影響、迭代與創(chuàng)新方向一直備受關(guān)注。在接受智東西等媒體采訪期間,Dave Brown也總結(jié)了亞馬遜云科技自研芯片的一些關(guān)鍵優(yōu)勢(shì),包括成本低、規(guī)模大、落地快、穩(wěn)定可靠等。

成本上,如果選用Trainium2可將成本較H100降低50%,那么這對(duì)客戶(hù)或許是很有吸引力的點(diǎn)。

規(guī)模上,亞馬遜云科技的規(guī)模確保其芯片能夠正常運(yùn)行,會(huì)在推出Trainium前做大量測(cè)試,確保芯片一旦推出就一定會(huì)成功,不會(huì)出現(xiàn)硬件需要撤回的情況。

規(guī)模大還意味著更容易獲得所需的產(chǎn)能。Dave Brown提到亞馬遜云科技與英特爾、臺(tái)積電等企業(yè)的合作順利,認(rèn)為臺(tái)積電到美國(guó)鳳凰城投資建廠是明智之選。亞馬遜云科技致力于實(shí)現(xiàn)供應(yīng)鏈多元化,是臺(tái)積電的最大客戶(hù)之一,也一直與英特爾緊密合作,互相幫助進(jìn)行設(shè)計(jì)創(chuàng)新,預(yù)計(jì)不會(huì)受領(lǐng)導(dǎo)層變動(dòng)的影響。

落地上,亞馬遜云科技有專(zhuān)門(mén)團(tuán)隊(duì),負(fù)責(zé)立即能將芯片放到服務(wù)器中,中間不存在一兩個(gè)月的耽擱延誤,因此能縮短落地時(shí)間,有足夠好的芯片來(lái)支持客戶(hù)進(jìn)行大語(yǔ)言模型的訓(xùn)練。

還有完整的產(chǎn)品組合和可靠服務(wù)。亞馬遜云科技提供不僅僅是芯片,還包括存儲(chǔ)、Kubernetes服務(wù)器、API、安全、網(wǎng)絡(luò)等,這樣豐富的組合拳是其他供應(yīng)商難以提供的。在穩(wěn)定性上,亞馬遜云科技同樣具備優(yōu)勢(shì),在及時(shí)診斷和修補(bǔ)遇到的問(wèn)題、確保服務(wù)不受影響方面已經(jīng)深得云服務(wù)客戶(hù)的信任。

生成式AI浪潮推動(dòng)下游市場(chǎng)對(duì)更高性能、高性?xún)r(jià)比、靈活可定制的AI基礎(chǔ)設(shè)施提出了強(qiáng)需求。而亞馬遜云科技在AI基礎(chǔ)設(shè)施底層技術(shù)與工程上的探索與創(chuàng)新,正為業(yè)界提供一個(gè)既能適應(yīng)客戶(hù)業(yè)務(wù)需求、降低系統(tǒng)復(fù)雜性又能提高供應(yīng)鏈話語(yǔ)權(quán)的出色參考范本。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2025 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港