主打AI與深度學習應用，Nvidia以GPU加速器開拓運算平臺

從2016年到現在，談到AI運算平臺，Nvidia GPU相關產品可說是獨領風騷，例如，專攻深度學習與人工智慧應用的整合設備DGX-1，以及針對車用人工智慧、跨入自動駕駛車的運算平臺Drive PX 2。

以我們先前介紹的DGX-1為例，裡面所採用的GPU加速器，是與DGX-1同時問世的Tesla P100。這款產品是基於Nvidia第11代GPU架構Pascal而成，並且提供兩種形式：安裝在支援NVLink最佳化伺服器的SXM2模組，以及可安裝在伺服器PCIe插槽的傳統GPU加速卡。

而且，前者是最早推出的機型，能提供最佳運算效能，並具備更良好的延展性，適用於需要更多GPU的應用環境，例如深度學習；後者則是到了2016年下半推出，可針對混合CPU與GPU工作負載的HPC高效能運算應用。

若以上一代Maxwell架構的GPU加速器為基準，Telsa P100在類神經網路的訓練效能上，提升的幅度達到12倍之高。同時，若將Telsa P100用於支援NVLink的伺服器上，可運用NVLink的GPU高速互連技術，讓應用程式的執行得以同時橫跨到多個GPU來執行。

就雙向互連頻寬來看，NVLink可提供到160 GB/s，對照目前較普遍的PCIe 3.0 x16為31.5 GB/s，兩者相差4倍。此外，在NVLink的架構下，單靠一臺伺服器，就能同時搭配8張Telsa P100，將這些GPU加速器透過NVLink互連，以提供最大的應用程式運算效能。

而目前導入NVLink技術的伺服器平臺，最為人所知的是IBM POWER8，提供CPU與GPU之間的直接互連溝通，例如，他們推出的Power Systems S822LC for High Performance Computing，可搭配4個Tesla P100。而在x86伺服器環境，也有一些產品可支援NVLink，像是Nvidia DGX-1就是一個例子，它採用兩顆Intel Xeon E5-2698 v4處理器，搭配8個Nvidia Tesla P100，這臺伺服器也是Nvidia與廣達QCT合作的產物，此外，還有Supermicro推出的1028GQ-TXR和4028GR-TXR，分別可搭載4個與8個Tesla P100。

針對大數據的工作負載，Tesla P100由於採用了Pascal架構，而能將處理器與資料統合在單一封裝內執行，而大幅提升運算效率。在記憶體的設計上，Tesla P100也引進了新的技術，稱為CoWoS（Chip-on-Wafer-on-Substrate），並且結合了高頻寬記憶體HBM2，而在總體配置的記憶體容量是16GB，可提供更好的頻寬存取效能，達到720 GB/s，這樣的性能相當於Maxwell架構的3倍。

對於新型AI演算法的支援，也是Tesla P100的重點，Nvidia加入了新的半精度指令集。因此，若在深度學習應用當中，採用這套GPU加速起，將可提供21 TFLOPS的尖峰運算效能。

而在具備如此強大的運算效能下，Tesla P100對於能源使用效率也有所著墨。基本上，Pascal架構的GPU，都是採用16奈米的FinFET 製程技術而成，內含153億個電晶體，而Tesla P100也繼承了這樣的特色，最大耗電量為300瓦。文☉李宗翰

產品資訊

Nvidia Tesla P100
●原廠：Nvidia(02)6605-5700
●建議售價：廠商未提供
●處理器製程：16奈米FinFET+
●外型：SXM2（NVLink）、介面卡（PCIe）
●GPU架構：Nvidia Pascal
●GPU核心：3584顆CUDA核心
●GPU記憶體：16GB CoWoS HBM2
●記憶體頻寬：732 GB/s
●運算效能：雙精度為5.3 TFLOPS
●支援運算API：CUDA、DirectCompute、OpenCL、OpenACC

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

熱門新聞