去年11月上半,趕在美國SC超級電腦大會舉行的前一週,AMD發表第二代資料中心GPU產品Instinct MI200系列,當時揭露的機型與規格,主要是採用OAM外形的MI250X與MI250,它們均導入台積電6奈米FinFET製程,搭配128 GB容量的HBM2e記憶體,以及AMD發展的CDNA2架構,是首批以多晶粒方式設計的GPU。

而其中的MI250X,率先搭配在HPE的Cray Ex超級電腦,AMD也預告2022年第一季將推出更多機型,像是:MI250,以及PCIe介面卡形式的機型MI210,屆時多個伺服器廠牌,都會推出搭配這些資料中心GPU機型的企業級產品,包含:華碩、Atos、Dell Technologies、技嘉、HPE、聯想、Penguin Computing、Supermicro;在此同時,AMD也預告這批資料中心GPU,可結合第三代EPYC處理器,以及ROCm 5.0版的開放原始碼軟體平臺,藉此支援多種領域的高效能運算,像是氣候變遷、疫苗研究。

到了今年3月,AMD正式發表Instinct MI210,以及ROCm 5.0(陸續於2月與3月釋出5.0版、5.1版),而先前預告的多家伺服器廠商,也開始提供搭配Instinct MI200系列的產品。

相較於去年底發表的MI250X、MI250,MI210同樣採用CDNA2架構、第二代的Matrix Core核心,具有優異的效能,但其硬體資源配備減半,顯得較為精簡,例如,運算單元為104個(MI250X、MI250分別為220個與208個);串流處理器為6,656個(MI250X、MI250分別為14,080個與13,312個);HBM2e記憶體容量為64 GB(MI250X、MI250皆為128 GB),記憶體頻寬為1.6 TB/s(MI250X、MI250皆為3.2 TB/s)。

以雙精度FP64運算而言,MI210可達到22.6 TFLOPS,前代的MI100為11.5 TFLOPS,同代的MI250X、MI250分別為47.9 TFLOPS、45.3 TFLOPS。

若是單精度的FP32矩陣運算、FP64矩陣運算,MI210均為45.3 TFLOPS,同代的MI250X、MI250分別為95.7 TFLOPS、90.5 TFLOPS,前代的MI100僅有單精度FP32矩陣運算效能,達到46.1 TFLOPS。

即便效能不及MI250X與MI250,但同樣採用第二代CDNA架構與第二代Matrix Core核心的MI210,相較於AMD前一代資料中心GPU產品MI100,以及其他廠牌的資料中心GPU而言,仍具有很好的處理能力。而且,基於上述運算核心配置,MI210的運算單元陣列可分割成4個明暗處理(shader)引擎,可執行命令處理器產生的運算核心。

例如,這裡支援更廣泛的資料型別,像是FP64(FP64矩陣乘法指令),以及最佳化指令、更大容量的記憶體(MI210內建64 GB的HBM2e記憶體,MI100內建32 GB的HBM2記憶體)、更大的記憶體頻寬(MI210為1638.4 GB/s,MI100為1228.8 GB/s)。

不過,值得注意的是,MI210與MI100的記憶體介面同為4096位元,內部的Infinity Fabric連結均為3個(MI250X與MI250皆為8個),就Infinity Fabric頻寬而言,支援第三代AMD Infinity Fabric技術的MI210、MI250X、MI250均為100 GB/s(若將2個GPU匯集起來,可達到300 GB/s;若連接4個GPU,可達到600 GB/s),而上一代的MI100為95 GB/s。

                 

          

關於各大伺服器廠牌搭配Instinct MI系列GPU的狀況,AMD目前也透過自家網站,以及解決方案型錄文件AMD Instinct Accelerators Server Solutions Catalog,列出14家廠商、55款機型。以華碩而言,他們也趁MI210發表之際發布新聞稿,宣告兩款產品可搭配這張新GPU加速卡。

HPE的部分,目前支援MI210的機型,包含:ProLiant DL385 Gen 10 Plus v2、Apollo 6500 Gen10 Plus、ProLiant XL675d Gen10 Plus、ProLiant XL645d Gen10 Plus,他們也預告未來可望有更多機型搭配MI210,像是直立式伺服器Proliant ML30 Gen10、融合式邊緣伺服器Edgeline EL4000、關鍵業務系統Integrity系列、叢集式運算系統SGI系列。

產品資訊

AMD Instinct MI210
●原廠:AMD
●建議售價:廠商未提供
●處理器製程:6nm
●I/O介面:PCIe 4.0 x16
●GPU架構:AMD CDNA
●GPU核心:104個運算單元,6,656個串流處理器
●GPU記憶體:64 GB HBM2e
●記憶體頻寬:1638.4 GB/s
●運算效能:雙精度(FP64)尖峰值為22.6 TFLOPS
●支援運算API:OpenMP、OpenCL、HIP、AMD ROCm
●耗電量:300瓦

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


熱門新聞

Advertisement