使用CDNA2架構，AMD推出PCIe介面卡的新資料中心GPU

去年11月上半，趕在美國SC超級電腦大會舉行的前一週，AMD發表第二代資料中心GPU產品Instinct MI200系列，當時揭露的機型與規格，主要是採用OAM外形的MI250X與MI250，它們均導入台積電6奈米FinFET製程，搭配128 GB容量的HBM2e記憶體，以及AMD發展的CDNA2架構，是首批以多晶粒方式設計的GPU。

而其中的MI250X，率先搭配在HPE的Cray Ex超級電腦，AMD也預告2022年第一季將推出更多機型，像是：MI250，以及PCIe介面卡形式的機型MI210，屆時多個伺服器廠牌，都會推出搭配這些資料中心GPU機型的企業級產品，包含：華碩、Atos、Dell Technologies、技嘉、HPE、聯想、Penguin Computing、Supermicro；在此同時，AMD也預告這批資料中心GPU，可結合第三代EPYC處理器，以及ROCm 5.0版的開放原始碼軟體平臺，藉此支援多種領域的高效能運算，像是氣候變遷、疫苗研究。

到了今年3月，AMD正式發表Instinct MI210，以及ROCm 5.0（陸續於2月與3月釋出5.0版、5.1版），而先前預告的多家伺服器廠商，也開始提供搭配Instinct MI200系列的產品。

相較於去年底發表的MI250X、MI250，MI210同樣採用CDNA2架構、第二代的Matrix Core核心，具有優異的效能，但其硬體資源配備減半，顯得較為精簡，例如，運算單元為104個（MI250X、MI250分別為220個與208個）；串流處理器為6,656個（MI250X、MI250分別為14,080個與13,312個）；HBM2e記憶體容量為64 GB（MI250X、MI250皆為128 GB），記憶體頻寬為1.6 TB/s（MI250X、MI250皆為3.2 TB/s）。

以雙精度FP64運算而言，MI210可達到22.6 TFLOPS，前代的MI100為11.5 TFLOPS，同代的MI250X、MI250分別為47.9 TFLOPS、45.3 TFLOPS。

若是單精度的FP32矩陣運算、FP64矩陣運算，MI210均為45.3 TFLOPS，同代的MI250X、MI250分別為95.7 TFLOPS、90.5 TFLOPS，前代的MI100僅有單精度FP32矩陣運算效能，達到46.1 TFLOPS。

即便效能不及MI250X與MI250，但同樣採用第二代CDNA架構與第二代Matrix Core核心的MI210，相較於AMD前一代資料中心GPU產品MI100，以及其他廠牌的資料中心GPU而言，仍具有很好的處理能力。而且，基於上述運算核心配置，MI210的運算單元陣列可分割成4個明暗處理（shader）引擎，可執行命令處理器產生的運算核心。

例如，這裡支援更廣泛的資料型別，像是FP64（FP64矩陣乘法指令），以及最佳化指令、更大容量的記憶體（MI210內建64 GB的HBM2e記憶體，MI100內建32 GB的HBM2記憶體）、更大的記憶體頻寬（MI210為1638.4 GB/s，MI100為1228.8 GB/s）。

不過，值得注意的是，MI210與MI100的記憶體介面同為4096位元，內部的Infinity Fabric連結均為3個（MI250X與MI250皆為8個），就Infinity Fabric頻寬而言，支援第三代AMD Infinity Fabric技術的MI210、MI250X、MI250均為100 GB/s（若將2個GPU匯集起來，可達到300 GB/s；若連接4個GPU，可達到600 GB/s），而上一代的MI100為95 GB/s。

關於各大伺服器廠牌搭配Instinct MI系列GPU的狀況，AMD目前也透過自家網站，以及解決方案型錄文件AMD Instinct Accelerators Server Solutions Catalog，列出14家廠商、55款機型。以華碩而言，他們也趁MI210發表之際發布新聞稿，宣告兩款產品可搭配這張新GPU加速卡。

HPE的部分，目前支援MI210的機型，包含：ProLiant DL385 Gen 10 Plus v2、Apollo 6500 Gen10 Plus、ProLiant XL675d Gen10 Plus、ProLiant XL645d Gen10 Plus，他們也預告未來可望有更多機型搭配MI210，像是直立式伺服器Proliant ML30 Gen10、融合式邊緣伺服器Edgeline EL4000、關鍵業務系統Integrity系列、叢集式運算系統SGI系列。

產品資訊

AMD Instinct MI210
●原廠：AMD
●建議售價：廠商未提供
●晶片製程：6nm
●I/O介面：PCIe 4.0 x16
●GPU架構：AMD CDNA
●GPU核心：104個運算單元，6,656個串流處理器
●GPU記憶體：64 GB HBM2e
●記憶體頻寬：1638.4 GB/s
●運算效能：雙精度（FP64）尖峰值為22.6 TFLOPS
●支援運算API：OpenMP、OpenCL、HIP、AMD ROCm
●耗電量：300瓦

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

熱門新聞