在2022年的Nvidia GTC大會主題演講結尾,曾播出一段呈現Nvidia AI超級電腦資料中心特色的幽默動畫影片,劇情是DGX、網路交換器、GPU、DPU、氣冷系統等設備與元件的資料中心祕密狂歡會,令人印象深刻。

今年3月舉行的Nvidia GTC 2024大會主題演講最後再度播出一段與此主題有關的影片,內容換成Toy Jensen搭乘AI自動駕駛的太空船穿梭在該公司多種資料中心解決方案之間,航程逐一標示重要產品,包含已登場的Grace CPU、BlueField-3 DPU、DGX SuperPOD、NVLink Switch晶片,最新發表的Blackwell GPU、GB200 NVL72、ConnectX-800G InfiniBand SuperNIC網卡(ConnectX-8 SuperNIC網卡),也帶到即將登場亮相的NVLink Spine線路,以及液冷系統,特別的是,這艘太空船一開頭是從交換器的網路埠飛出,最後飛入交換器的網路埠,回到色彩亮麗的AI與Omniverse大宇宙,應該是該公司首次利用動畫影片突顯Nvidia Networking技術的重要性。

 

 

而這也呼應Nvidia今年GTC大會最終對Blackwell平臺重要成員的介紹,當中不僅包含新一代的GPU整合主板模組HGX B100、獨立的NVLink Switch交換器、基於GB200 Superchip而成的運算節點,更帶出橫跨多座機櫃、使巨量GPU之間的I/O得以暢行無阻的關鍵技術,那就是他們接下來要推廣的全方位800 Gb/s網路解決方案:X800系列,裡面涵蓋用於InfiniBand網路的Quantum-X800平臺,以及用於乙太網路的Spectrum-X800平臺。

若以目前能否供應市場的狀態而言,後者就緒程度較高。第一個理由在於,Nvidia在2023年5月首度發表加速網路平臺Spectrum-X,並表明這是專為設置在乙太網路的AI雲端服務所設計的解決方案,當時曾喊出能在多租戶環境當中,提供1.7倍的整體AI效能(相較於傳統乙太網路),並具備高能源使用效益,以及一致、可預期的效能表現;在應用案例方面,Nvidia當時正在以色列組建的大型生成式AI超級電腦系統Israel-1,會用來規畫與測試Spectrum-X的參考設計,關於實際供應此項解決方案的廠商方面,他們預告將有三家:Dell、聯想、Supermicro。 

  

在此之後,他們陸續揭露Spectrum-X的上市與推廣進度。例如,2023年8月Nvidia公布季度財報時,提到Spectrum-X將於此季度開始出貨;11月,他們預告這套AI專用乙太網路平臺將於2024年第一季,整合到Dell、HPE、聯想這三大廠商的伺服器

到了今年,Nvidia於2月宣布Supermicro加入供應Spectrum-X的行列,在3月舉行GTC 2024大會期間,他們不僅正式發表Spectrum-X800,也宣布用於InfiniBand網路環境的Quantum-X800成軍,形成以X-800為名的網路軟硬體整合新套裝方案,而且將有更多IT基礎架構與系統廠商供應這類解決方案——除了上述4家業者,還包括Hitachi Vantara、VAST Data、DDN、Aivres、Eviden。

第二個相關產品供應就緒的理由在於,組成這套解決方案的兩個產品都已上市,分別是過去兩年登場的800GbE交換器Spectrum SN5600,以及2023年稍晚出現的BlueField-3 SuperNIC。

Spectrum-X800平臺鎖定需供應AI高效能運算機制的多租戶雲端服務,以及大型企業基礎架構,具備最佳化的網路效能,針對AI工作負載,提供更快速的處理、分析、執行能力,促成AI解決方案的開發、部署、上市。

對於多租戶環境而言,Nvidia強調,Spectrum-X800平臺可確保每個租戶的AI工作負載,能夠以彼此隔離的方式運作,維護效能等級處於最佳狀態,並且具有一致性,進而強化顧客滿意度與服務品質。

  

而在效能展現的部分,Nvidia在今年2月揭露更詳細的數據。他們在率先導入此平臺的超級電腦Israel-1進行測試,並以傳統乙太網路為基準。

首先是基本的網路運作效能,Spectrum-X有效頻寬可達到4.6倍,存取延遲度減至4.5分之一,關鍵在於傳統乙太網路雖然支援RDMA,但Spectrum-X額外支援RDMA二分法(bisection)。

第二,是針對Nvidia集合通訊程式庫(NCCL)的AI原語(primitives)處理測試,諸如all-to-all、all-reduce這兩種多對多的NCCL操作,以此橫跨多個GPU來更新模型參數,確保橫向擴充AI訓練與AI推論的同步作業,Spectrum-X可分別達到傳統乙太網路的1.5倍、2.2倍。

第三,是大型語言模型效能,面對430億個參數的Nvidia Nemo的AI訓練測試,Spectrum-X可達到傳統乙太網路的1.2倍;面對700億個參數的FSDP Llama,Spectrum-X可達到傳統乙太網路的1.5倍。

第四是網路韌性,在面臨上行連結網路故障率分別為50%、75%、88%,Spectrum-X提供AI網路效能均優於傳統乙太網路。Nvidia表示,這是因為Spectrum-X的路由、流向若遇上斷線會進行改道,並以有效率的方式重新指派至運作正常的連線,因此能夠盡可能不影響網路效能,傳統乙太網路容易受到網路問題影響而拖垮傳輸速度,進而導致GPU基礎架構缺乏效率。

產品資訊

Nvidia Spectrum-X800
●原廠:Nvidia
●建議售價:廠商未提供
●硬體組成產品:交換器Spectrum-X800 SN5600(64個800GbE埠,可分接128個400GbE埠)、資料處理器BlueField-3 SuperNIC(1或2個400GbE埠)、纜線與收發器LinkX
●軟體組成產品:NetQ、Air、NCCL、Nsight、DOCA、Magnum IO、Cumulus Linux、SONiC

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

熱門新聞

Advertisement