雖然延後快兩個月,在今天線上舉行GTC大會主題演講上,Nvidia一連推出不少整合GPU的新產品,其中擁有多達5 PetaFLOPS的AI超級電腦系統DGX A100的推出,最受各界矚目。

圖片來源: 

Nvidia

Nvidia今天(14日)推出採用全新Tesla A100 GPU打造的新一代AI超級電腦系統DGX A100,運算效能更翻倍可達到5 PetaFLOPS,但只要前一代DGX-2的一半價格,單臺售價只要19.9萬美元(約新臺幣600萬元),未來將能用於企業資料中心,協助其打造AI訓練和推論執行所需加速運算環境。

Nvidia自2016年起,每隔兩年便翻新一代AI超級電腦DGX產品,以因應資料中心每年對於AI加速運算、HPC高效能運算需求的大量增長。在今日一場線上GTC大會主題演講上, Nvidia執行長黃仁勳一如往年發表DGX產品線新一代產品DGX A100,也是繼DGX-1、DGX-2之後,Nvidia最新推出的第3代DGX產品。

早在主題演講前兩天,就有一段YouTube影片在網路瘋傳,超過40萬人點閱。影片中黃仁勳從家裡烤箱端出一塊熱騰騰板子,在這塊板子上還放了8張GPU卡,正是這臺DGX A100所用的系統板,黃仁勳在今天大會中強調:「它是世上最大的GPU加速運算卡。」這不單指它的體積、重量,更強調其在AI運算加速的效能,更甚以往幾代。

有別於前一代DGX產品,該公司替這代DGX A100系統,一次裝進8張Tesla A100 GPU加速卡,與合計320GB HBM2記憶體,並以NVSwitch光纖互連。雖然,新系統配備的GPU張數僅有前代一半 ,但靠著翻新GPU架構與製程技術,採用效能更高的Tesla A100 GPU,使其運算效能可達到5 PetaFLOPS (每秒千兆次浮點運算),相較之下,還比原來採用16張Tesla V100 GPU的DGX-2更高,其效能僅有2 petaFLOPS。

Tesla A100 GPU也是Nvidia首款以7奈米Ampere新架構推出的GPU加速器產品,內含有高達540億顆電晶體。在這顆GPU內,還內建第3代Tensor GPU的AI運算核心,多達432個Tensor cores,在深度學習模型訓練,推論執行方面,都比前一代Volta架構GPU足足高出20倍之多。

值得一提的是,這代CPU首次改用AMD的伺服器CPU,取代前面二代使用的英特爾Xeon系列處理器,DGX A100搭配的是AMD兩顆最新64核Rome伺服器處理器(CPU型號為AMD EPYC 7742處理器),並可容納最多1TB的記憶體容量,以加快資料存取的反應速度。

從系統架構來看,新款DGX A100運算主機,在對內GPU互連上,除了能以6個NVSwitch光纖互連架構,提供多達每秒4.8 TB的雙向頻寬,每顆GPU之間的頻寬亦提高到了600GB/s。另針對網路連接介面,該款設備也使用最近剛完成併購成為旗下網路品牌的Mellanox產品,搭配的是9張200Gb/s的Mellanox ConnectX-6 HDR高速網路介面卡,總頻寬可達3.6Tbps的傳輸能力。至於儲存方面也有所升級,採用高速儲存的PCIe 4.0的SSD,並提供最多15TB容量用於内部儲存。

另外,這臺機器本身還提供多個軟體堆疊或工具,可用於加速AI運算的使用,包括了Spark3.0、CUDA加速函式庫RAPIDS、Triton ,以及常用DL開發框架如TensorFlow、PyTorch等。

Nvidia舉例,原來要打造一座現代化AI資料中心,用於ML模型訓練與AI推論,需要數十臺的DGX-1搭配上百顆的伺服器CPU,光是初期建置成本,就高達1千1百萬美元,現在改用DGX A100的話,只須一個伺服器機櫃,裝進5臺DGX A100,就能達到同樣的用途,用於資料分析、AI加速運算,而且費用只有原來十分之一,空間和能耗也更省。

同一場合,Nvidia還發表以140臺DGX A100打造擁有700 PetaFLOPS運算能力的DGX SuperPOD超級運算叢集節點,效能更遠遠高於TOP500超級電腦第一名,目前排名第一的超級電腦Summit的運算效能達到148.6 PetaFLOPS。而這代DGX SuperPOD還比它多出快5倍,甚至還可以擴充到最多4個SuperPOD節點建立運算叢集,其運算能力更高達2.8 ExaFLOPS 。

DGX A100目前已開始於全球出貨,每臺售價19.9萬美元。並已有美國能源部的阿貢國家實驗室先採用,其他早期採用者,不少是國家研究機構或AI實驗室,像是德國DFKI研究中心、UAE人工智慧辦公室等,另外也有一些AI公司如Element AI、Harrison.ai等未來也要用。


Advertisement

更多 iThome相關內容