攝影/李宗翰
搶攻爆量雲端AI應用需求商機,Nvidia持續推出打破市場慣用規格的解決方案!當其他廠商開始重視GPU、積極推出GPU伺服器時,他們早已開始打造DGX這類整合應用伺服器設備,而在自家GPU、GPU應用設備不斷推陳出新之際,Nvidia也發展出整櫃型解決方案DGX BasePOD、DGX SuperPOD,以及與四大公有雲服務業者合作推出DGX Cloud。
這兩年以來,Nvidia發表結合自家GPU與自研Arm架構CPU的超級晶片GH200,以創新的方式克服GPU記憶體容量供不應求的困境,開創AI加速伺服器的新局。例如,在2023年5月底舉行的台北國際電腦展(Computex)期間,Nvidia與多家伺服器廠商合作推出搭配GH200的產品,並且基於這款融合式加速晶片發表新型態的多機櫃AI超級電腦系統DGX GH200,到了2023年底,他們也與公有雲服務龍頭AWS共同宣布,將引進Nvidia發展的新型多節點整合機櫃系統GH200 NVL32。
而在今年6月初登場的2024台北國際電腦展,多達10家廠商展出Nvidia最新發表的AI整櫃伺服器系統GB200 NVL72,堪稱2024年上半全球最大規模的AI硬體軍火展示。
以Computex活動現場而言,展出Nvidia這套系統的廠商有哪些?絕大部分都集中在南港展覽館1館,例如,1樓有技嘉科技(Gigabyte),3樓有緯創集團(Wistron)與緯穎科技(Wiwynn)、廣達集團的雲達科技(QCT),4樓有美超微(Supermicro)、華碩(Asus)、英業達(Inventec)、華擎科技的子公司永擎電子(ASRock Rack)、富士康科技集團的鴻佰科技(Ingrasys);和碩聯合科技(Pegatron)則是在臺北市北投區的公司總部,展出Nvidia GB200 NVL72。
之所以能在今年Computex期間,促成如此盛大的產品展示,最主要的原因可能在於,臺灣本身就是全球伺服器研發、設計與生產的重鎮,而在這些廠商與Nvidia近期密切合作之下,得以在產地就近展示最新研發製造的Nvidia專屬超級電腦伺服器系統。
Nvidia發表資料中心GPU架構Blackwell,導入此架構的超級晶片先出場,帶出新一代整櫃型AI加速伺服器系統產品上陣
在今年3月舉行的GTC大會,Nvidia發表新一代GPU架構Blackwell,也特別標榜結合基於此架構而成的GPU晶片B200與Grace CPU的GB200 Grace Blackwell Superchip,以及大量採用這顆超級晶片的多節點整櫃系統GB200 NVL72,當時他們預告AWS、Google Cloud、Azure、Oracle Cloud Infrastructure這四大公有雲業者,將是第一批提供搭配Blackwell技術運算執行個體服務的廠商,除了微軟,其他三大公有雲均提到將導入GB200 NVL72系統。
而在6月初登場的台北國際電腦展前夕,Nvidia共同創辦人暨執行長黃仁勳率先發表主題演講,當中透過一段動畫影片秀出GB200 NVL72的系統結構。
以單臺節點而言,依照由小而大的組成順序來看,分別是:將兩顆裸晶統合為單顆GPU的Blackwell,集結兩顆Blackwell與單顆Grace處理器的GB200 Grace Blackwell Superchip,搭配2張GB200超級晶片、ConnectX-800G InfiniBand SuperNIC網路卡、BlueField-3資料處理器的GB200 Compute Node(單臺節點有4顆Blackwell與2顆Grace)。
就單臺機櫃而言,GB200 NVL72包含18臺GB200運算節點組成的GB200 Compute Tray(採用36張GB200 Grace Blackwell Superchip,提供72顆Blackwell與36顆Grace),9臺各自搭配兩顆NVLink Switch晶片組成的交換器組成的NVLink Switch System。而在運算效能方面,GB200 NVL72用於FP8、FP6、Int8這三種資料型別時,可提供720 PFLOPS的處理能力,用於FP4時,能達到1,440 PFLOPS(1.44 ExaFLOPS);在多個節點之間的存取頻寬,受益於採用第五代NVLink,可達到130 TB/s。
若需建置多櫃型系統,搭配多臺GB200 NVL72之餘,可結合以多臺Quantum-X800 800G InfiniBand Switch交換器組成的機櫃進行串聯,組成GB200 NVL72 Compute Rack,再以多臺這樣的運算機櫃系統,建置一座完整的資料中心,提供3.2萬顆Blackwell GPU,成為促成產業新革命的AI工廠。
部分廠商公布GB200 NVL72系統組成機型與技術規格
在2024台北國際電腦展期間公開亮相的GB200 NVL72當中,外型大同小異,多數廠商現場展出的是單櫃機型,例如,緯穎、永擎、技嘉、美超微、英業達,大多搭配1U尺寸的運算節點伺服器,其中,技嘉、英業達、和碩均展出搭配2U尺寸的運算節點伺服器,廠商們將這樣的配置稱為GB200 NVL36。
以英業達為例,他們展示整櫃式的GB200 NVL72之餘,旁邊擺設代號為Artemis的1U伺服器與2U伺服器,當中均配備2張GB200 Grace Blackwell Superchip、ConnectX-7 400Gb/s InfiniBand網路卡,以及BlueField-3 400Gb/s資料處理器。
其他廠商提供延伸搭配方式,像是雲達、華碩、鴻佰展出的產品,是一座伺服器機櫃搭配一座稱為側車(Side Car)的冷卻機櫃(編按:所謂的側車是一種液態冷卻機櫃搭配伺服器機櫃的部署形式,應該是借用兩輪機車側邊加裝附有單輪乘坐設備的比喻)。
以雲達為例,他們與光寶科技(LiteOn)展示搭載Nvidia GB200 NVL72的AI伺服器機櫃,在伺服器方面,雲達揭露當中搭配的伺服器有兩款機型,它們均配備雲達的直達晶片水冷技術(direct-to-chip liquid cooling)。
其中一款伺服器,是2U機型QuantaGrid D75B-2U,在Nvidia GB200 NVL72的系統建置框架之下,可透過兩座機櫃容納72臺這樣的設備。另一款是現場展示的1U機型QuantaGrid D75B-1U,在Nvidia GB200 NVL72的系統建置框架之下,可透過單座機櫃容納72臺這樣的設備。D75B-1U本身搭載2張GB200 Grace Blackwell Superchip,雲達在此標明CPU可存取480 GB容量的LPDDR5X記憶體,GPU本身配備144GB容量HBM3e高頻寬記憶體,均搭配冷水板(Cold Plate)形式的液態冷卻配件;儲存裝置方面,這臺1U伺服器可容納8臺E1.S厚度15公釐外形的PCIe固態硬碟,以及1張M.2 2280外形的PCIe固態硬碟;在PCIe裝置擴充方面,D75B-1U可容納2張雙寬全高全長尺寸的介面卡,以及2張半高半長尺寸的介面卡,均支援PCIe 5.0 x16。
Nvidia GB200 NVL72之所以能夠提供強大的運算效能,源於當中容納的大量1U或2U尺寸伺服器,圖中為雲達的QuantaGrid D75B-1U,裡面搭配2張GB200,而在他們組建的GB200 NVL72系統當中,單座機櫃可裝載18臺D75B-1U。
至於機櫃與電源供應的部分,是由光寶自主設計與製造,並且是遵循Nvidia最新提出的MGX機櫃規範的產品,而在Computex現場展示的Nvidia GB200 NVL72機櫃頂端,也特別標示QoolRack作為獨立解決方案時,可供應120 KW電力。
華碩則展出配備Nvidia GB200 NVL72系統的Asus ESC AI POD,以及矗立在旁的液體至氣體熱交換器機櫃(Liquid-to-Air Heat Exchanger),其中,Asus ESC AI POD搭配的伺服器機型為ESC NM2N721-E1,特別的是,他們在這個展示用的機櫃套件側邊掛上一整面LED看板,持續播放動畫影片介紹Asus ESC AI POD的內部構造、電力供應配置與流經的元件,以及18臺運算槽的統合,Grace CPU、Blackwell GPU與NVLink Switch的互連關係。
針對Nvidia GB200 NVL72系統的運算槽,華碩也在Computex現場展示機箱內部設計。我們可看到裡面配備2張GB200 Grace Blackwell Superchip,上面均覆蓋冷水板,而在機箱中間有個他們設計的電源配送板(Power Distribution Board,PDB),可將48伏特直流電轉換為12伏特直流電,供應Blackwell GPU使用;除此之外,這個運算槽還搭配可安裝E1.S外形固態硬碟的儲存模組,以及兩張BlueField-3資料處理器系列的雙寬全高半長款式B3240。
熱門新聞
2024-12-10
2024-11-29
2024-12-10
2024-12-11
2024-12-10
2024-12-08