從2016年到現在,談到AI運算平臺,Nvidia GPU相關產品可說是獨領風騷,例如,專攻深度學習與人工智慧應用的整合設備DGX-1,以及針對車用人工智慧、跨入自動駕駛車的運算平臺Drive PX 2。

以我們先前介紹的DGX-1為例,裡面所採用的GPU加速器,是與DGX-1同時問世的Tesla P100。這款產品是基於Nvidia第11代GPU架構Pascal而成,並且提供兩種形式:安裝在支援NVLink最佳化伺服器的SXM2模組,以及可安裝在伺服器PCIe插槽的傳統GPU加速卡。

而且,前者是最早推出的機型,能提供最佳運算效能,並具備更良好的延展性,適用於需要更多GPU的應用環境,例如深度學習;後者則是到了2016年下半推出,可針對混合CPU與GPU工作負載的HPC高效能運算應用。

若以上一代Maxwell架構的GPU加速器為基準,Telsa P100在類神經網路的訓練效能上,提升的幅度達到12倍之高。同時,若將Telsa P100用於支援NVLink的伺服器上,可運用NVLink的GPU高速互連技術,讓應用程式的執行得以同時橫跨到多個GPU來執行。

就雙向互連頻寬來看,NVLink可提供到160 GB/s,對照目前較普遍的PCIe 3.0 x16為31.5 GB/s,兩者相差4倍。此外,在NVLink的架構下,單靠一臺伺服器,就能同時搭配8張Telsa P100,將這些GPU加速器透過NVLink互連,以提供最大的應用程式運算效能。

而目前導入NVLink技術的伺服器平臺,最為人所知的是IBM POWER8,提供CPU與GPU之間的直接互連溝通,例如,他們推出的Power Systems S822LC for High Performance Computing,可搭配4個Tesla P100。而在x86伺服器環境,也有一些產品可支援NVLink,像是Nvidia DGX-1就是一個例子,它採用兩顆Intel Xeon E5-2698 v4處理器,搭配8個Nvidia Tesla P100,這臺伺服器也是Nvidia與廣達QCT合作的產物,此外,還有Supermicro推出的1028GQ-TXR和4028GR-TXR,分別可搭載4個與8個Tesla P100。

針對大數據的工作負載,Tesla P100由於採用了Pascal架構,而能將處理器與資料統合在單一封裝內執行,而大幅提升運算效率。在記憶體的設計上,Tesla P100也引進了新的技術,稱為CoWoS(Chip-on-Wafer-on-Substrate),並且結合了高頻寬記憶體HBM2,而在總體配置的記憶體容量是16GB,可提供更好的頻寬存取效能,達到720 GB/s,這樣的性能相當於Maxwell架構的3倍。

對於新型AI演算法的支援,也是Tesla P100的重點,Nvidia加入了新的半精度指令集。因此,若在深度學習應用當中,採用這套GPU加速起,將可提供21 TFLOPS的尖峰運算效能。

而在具備如此強大的運算效能下,Tesla P100對於能源使用效率也有所著墨。基本上,Pascal架構的GPU,都是採用16奈米的FinFET 製程技術而成,內含153億個電晶體,而Tesla P100也繼承了這樣的特色,最大耗電量為300瓦。文☉李宗翰

產品資訊

Nvidia Tesla P100
●原廠:Nvidia(02)6605-5700
●建議售價:廠商未提供
●處理器製程:16奈米FinFET+
●外型:SXM2(NVLink)、介面卡(PCIe)
●GPU架構:Nvidia Pascal
●GPU核心:3584顆CUDA核心
●GPU記憶體:16GB CoWoS HBM2
●記憶體頻寬:732 GB/s
●運算效能:雙精度為5.3 TFLOPS
●支援運算API:CUDA、DirectCompute、OpenCL、OpenACC

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


Advertisement

更多 iThome相關內容