自從Nvidia在2016年推出DGX-1以來,這款產品無疑成為最受市場矚目的深度學習整合應用伺服器,除了搭配更先進的GPU、向上向下擴展更多機型,今年他們也和全快閃儲存陣列廠商Pure Storage合作,結合旗下的檔案與物件儲存設備FlashBlade,針對深度學習、人工智慧的應用領域,推出了一套融合式架構AI-Ready Infrastructure(AIRI),提供資料架構師、資料科學家,以及有意推動業務創新者來使用。

不論是入門級的AIRI Mini或是較高階的AIRI,從組合架構來看,包含三大元件,分別是Pure Storage全快閃儲存陣列FlashBlade、Nvidia深度學習整合應用設備DGX-1,以及100GbE網路交換器。
其中,網路交換器連接FlashBlade是透過40GbE網路介面,而連接DGX-1時,是經由100GbE網路介面。

就FlashBlade與DGX-1的搭配方式而言,除了最基本的AIRI Mini與較高階的AIRI,Pure Storage還提供其他組合方式,而且列出搭配的快閃儲存模組與GPU數量,以及對應的儲存容量與效能。

基本上,最先於3月推出的AIRI,包含了4臺Nvidia DGX-1、1臺Pure Storage FlashBlade,並且以2臺100 GbE交換器(Arista DCS-7060CX2-32S或Cisco Nexus 9336C-FX2)來串連,而這套融合架構的總體高度為50吋(約28.6U)。其中的DGX-1,內建了8套Nvidia Tesla V100的GPU模組,整臺可提供1 PFLOPS的深度學習效能(Tesla V100的Tensor效能是125 TFLOPS),而4臺DGX-1可提供4 PFLOPS的運算效能。FlashBlade則是搭配了15片17 TB的刀鋒式快閃儲存模組,可提供150萬IOPS的儲存效能。

Pure Storage在5月底舉行的Accelerate全球年度用戶大會現場,展出了AIRI,這款融合式架構的AI基礎架構解決方案,高度為50吋(127公分),途中是我們當時看到的機櫃陳設組態,從上到下依序置入了3臺Arsita 100GbE交換器、1臺Pure Storage FlashBlade與4臺Nvidia DGX-1。
攝影/李宗翰

 

至於AIRI搭配的100 GbE交換器,除了提供超高速的網路存取環境之外,本身還內建了RDMA。因此,在AIRI的架構下,可支援Nvidia提出的GPUDirect RDMA技術,讓多顆GPU、網路介面、固態硬碟等設備,可以直接讀寫CUDA主機端存放的資料,以及記憶體內容,提升深度學習的分散式訓練效能。

AIRI可搭配兩種廠牌的網路交換器,圖中是最早提供相關支援的Arista,Pure Storage使用了1臺DCS-7020TR-(F/R),作為置頂交換器(Accelerate大會現場搭配的交換器是DCS-7010T-48),提供48個GbE埠(BASE-T);而在40GbE與100GbE連線的部份,使用2臺DCS-7060CX2-32S,均可提供32個100 GbE埠或32個40GbE埠(QSFP100)。
攝影/李宗翰

Cisco在後續AIRI Mini發布之際,也開始支援AIRI,Pure Storage使用了1臺Nexus 9348GC-FXP,作為置頂交換器(現場搭配的是Cisco 31108TC-V),提供48個GbE埠(BASE-T),而在40GbE與100GbE連線的部份,使用2臺Nexus 9336C-FX2,均可提供36個100 GbE埠或32個40GbE埠(QSFP28)。
攝影/李宗翰

基於這樣的參考架構,兩個月後,Pure Storage推出應用規模與體型較矮小的AIRI Mini,提供採用門檻較低的選擇,搭配的Nvidia DGX-1從4臺減至2臺,可提供2 PFLOPS的運算效能,FlashBlade初始提供的17TB容量刀鋒式快閃儲存模組,也從15片減至7片,可提供70萬IOPS的儲存效能。

AIRI Mini搭配的DGX-1只有兩臺,理論上,應置於較矮小的機櫃,不過,在Accelerate 2018大會首度亮相的AIRI Mini,仍和AIRI一樣,搭配同樣高度的機櫃。
攝影/李宗翰

 

根據廠商的測試數據,AIRI能夠將訓練效能提升到近乎單臺DGX-1的4倍,提升GPU的使用率,消除資料傳輸的瓶頸。例如,在ResNet50神經網路的模型下,AIRI以4臺DGX-1來處理時,每秒可存取10,244張圖片。

由於AIRI搭配了多臺DGX-1,不免讓人擔心,當這些深度學習應用設備串連越來越多之後,是否會嚴重影響整體存取效能,對此,Pure Storage也做了測試,確認衝擊的程度(如圖所示),應該仍在用戶可接受的範圍。

同時,AIRI在軟體的搭配上,也支援Nvidia GPU Cloud(NGC)提供的多種深度學習軟體堆疊,都是經由Nvidia調校的框架,以及Pure Storage提供的自動調整規模軟體套件AIRI Scaling Toolkit,讓跨越多個節點的訓練處理變得更便利。透過這些現成的軟體,可協助資料科學家能在幾個小時內,即可開始著手AI相關計畫,而不需耗費幾週或數月來等待系統的建置。

AIRI也組合了多種技術,例如,FlashBlade的硬體架構與軟體平臺Purity//FB、DGX-1採用的Tesla V100 GPU,以及Nvidia提供GPU最佳化的Docker容器、多款深度學習軟體框架,此外,還有用來執行多節點深度學習訓練的AIRI Scaling Toolkit。

產品資訊

Pure Storage AIRI

●原廠:Pure Storage(02)8729-2111
●建議售價:廠商未提供
●運算單元:4臺Nvidia DGX-1,共12U
●儲存單元:1臺Pure Storage FlashBlade,4U,搭配15個17TB容量刀峰模組
●網路:2臺Arista DCS-7060CX2-32S、1臺Arista DCS-7020TR-(F/R),或是2臺Cisco Nexus 9336C-FX2、1臺Cisco Nexus 9348GC-FXP,共3U

Pure Storage AIRI Mini
●原廠:Pure Storage(02)8729-2111
●建議售價:廠商未提供
●運算單元:2臺Nvidia DGX-1,共6U
●儲存單元:1臺Pure Storage FlashBlade,4U,搭配7個17TB容量刀峰模組
●網路:2臺Arista DCS-7060CX2-32S、1臺Arista DCS-7020TR-(F/R),或是2臺Cisco Nexus 9336C-FX2、1臺Cisco Nexus 9348GC-FXP,共3U

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


Advertisement

更多 iThome相關內容