針對人工智慧(AI)應用的新一代GPU伺服器紛紛出爐,今年有不少廠商,相繼推出1U尺寸搭配4套Nvidia Tesla V100或P100的機型,以及4U尺寸搭配8套Nvidia Tesla V100或P100的機型,然而,也有廠商選擇另一種路線,例如,麗臺今年在台北國際電腦展亮相的WinFast HS5800,就是基於微軟與Nvidia合作發展的HGX架構(Hyperscale GPU Accelerator),而推出的複合式GPU加速系統,希望能夠跨入人工智慧、深度學習、高效能運算等應用。

基本上,HGX這套架構,是從微軟主導的雲端伺服器規格Project Olympus延伸而來,他們設立了PCIe擴充櫃的架構,支援超大規模的GPU加速應用,到了Nvidia在2017年3月舉行的GTC大會,正式發布了第一代規格HGX-1。

也因為運用了這樣的作法,HS5800有別於市面上其他GPU伺服器,是由1臺1U尺寸的主節點(head node),搭配1臺或2臺GPGPU節點,共同組合而成。

  

HS5800的主節點是1U尺寸的伺服器,型號為CSR-1102M-E,可搭配2顆Xeon Scalable系列處理器,記憶體容量為768 GB(目前可搭配24支32GB記憶體,同時支援單支64GB、128GB容量規格的記憶體),以及4臺M.2形式的NVMe SSD儲存裝置。

HS5800的GPGPU節點是4U尺寸的擴充櫃,型號是G50-HGX1,每臺可安裝8套SXM2形式的Nvidia Tesla V100,而能充分運用NVLink 與GPUDirect RDMA等高速互連介面,並且能支援這款GPU搭配32GB容量HBM2記憶體的最新版本。

圖中是一套 HS5800的樣貌,上面的兩臺4U設備是GPGPU節點,最底下的一臺1U設備是主節點,因此,整體而言,一套 HS5800需要的機架空間合計為9U,並且能支援16套Nvidia Tesla V100的組態。

這是HS5800的基本組態,左圖是從該套設備斜前方看過去的樣子,包含一臺1U尺寸的主節點(圖中的底部設備)以及1臺4U的GPGPU節點(圖中的上層設備)。右圖則是從正背部的檢視角度,可看出GPGPU節點的部份,設置了兩排、共6臺電源供應器,而主節點則是搭配2臺電源供應器,提供2個GbE網路埠與1個遠端管理埠,並且預留2個PCIe介面卡擴充插槽。

 

若對照微軟在2017年9月公布的HGX-1白皮書《Microsoft Project Olympus Hyperscale GPU Accelerator (HGX-1)》我們可以發現HS5800採用的規格,確實符合當中的要求。例如,HGX-1在PCIe擴充櫃的部份,需配備4U尺寸機箱、6個1600瓦的電源供應器(N+N備援)、12個系統散熱風扇,以及可搭配8套300瓦的GPU(SXM2或雙寬形式PCIe介面卡)、4個PCIe介面擴充能力;而對於連接的主機端,則是遵循Project Olympus規格的2路伺服器。

  

在HGX架構下,主節點與GPGPU節點之間如何串連?上圖是Nvidia當初發表HGX-1時,所發佈的簡易示意圖,下面兩張圖則是實際接線的方式,出自微軟的白皮書,以及微軟與Nvidia在OCP高峰會所公布的內容。

產品資訊

麗臺WinFast HS5800
●原廠:麗臺科技(02)8226-5800
●建議售價:廠商未提供
●產品組成與機箱尺寸:主系統CSR-1102M-E(1U)、GPGPU節點G50-HGX1(4U)
●處理器:2顆Xeon Gold 6154
●記憶體:24個DDR4插槽(最大768GB)
●儲存配置:4臺M.2 NVMe SSD(2臺512GB、2臺1.9TB)
●搭配GPU加速卡:16張Nvidia Tesla V100(串連2臺GPGPU節點)●電源供應器:CSR-1102M-E為2臺1300瓦(1+1備援)、G50-HGX1為6臺1600瓦(3+3備援)

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


Advertisement

更多 iThome相關內容