隨著GPU、FPGA等加速運算技術浮上檯面,從原本用於高效能運算的學術與政府治理等領域,因機器學習技術的重新走紅、電信業者建置5G網路服務而面臨IT架構的轉型等因素,而受到許多企業的重視,使得相關的解決方案如雨後春筍般,陸續在市場推出,而這當中又衍生出多種融合式產品,像是:(一)智慧型網路介面(SmartNIC)或是資料處理器(DPU),有不少廠商整合Arm處理器、FPGA晶片、網路介面晶片,推出系統單晶片架構的產品;(二)運算型儲存裝置(CSD),有些廠商搭配Arm處理器、FPGA晶片、固態儲存控制晶片、快閃記憶體等元件,推出兼具運算與儲存能力的新型固態硬碟;(三)AI加速運算晶片內建網路介面,完成處理的數據可直接對外傳送至其他系統或主機當中,而不需經由主機內部的PCIe介面連至整臺系統共用的網路埠。 

在2021年11月舉行的GTC秋季大會期間,Nvidia正式推出內建GPU與DPU的融合式加速卡(Converged Accelerator,Nvidia臺灣稱為聚合加速器):A100X與A30X,顧名思義,前者結合A100 GPU與BlueField-2 DPU,後者結合A30 GPU與BlueField-2 DPU。

        

這些產品均支援GPU與DPU各自運作的標準模式,以及GPU專屬於DPU使用的BlueField-X模式(透過PCIe交換器重新設定,伺服器端無法直接存取GPU)。

                               

若採用標準模式,顯然同於搭配獨立的GPU與DPU,差別在於僅需一張PCIe介面卡;在另一種BlueField-X模式下,GPU會專供DPU內部執行的作業系統使用,構成前所未見的「內建GPU加速的DPU」,此時,GPU可透過DPU形成線上處理模式(Inline)在傳入的資料上執行AI模型,而不會耗用伺服器端資源。

                                             

基於這種內部交互協作加速的模式,Nvidia認為可以促成多種應用案例,像是網路安全、資料中心管理、I/O加速。以該公司2021年新推出的網路安全框架Morpheus為例,它能運用DPU從資料中心現存的所有伺服器擷取遙測資料,然後將這些數據送往配備GPU的伺服器,而現在有了Nvidia發展的融合加速卡,以及BlueField-X模式,AI模型就能在每臺伺服器安裝的融合式加速卡當中,就地執行,這麼一來,Morpheus就能分析更多資料,預防資料外洩,以及動態建立防火牆規則。

為了開創更多具AI能力的網路環境,Nvidia也宣布將提供融合式加速卡開發套件,在這組開發工具當中,他們將針對選定用戶與合作廠商提供A30X作為初期試用,探索BlueField-X模式在邊緣運算或資料中心管理等領域的新應用。

回顧一年半以來,產品名稱屢經變動,最終以「融合」定案,搭配不同GPU作為機型區隔

關於融合式加速運算產品概念的發展,從外界來看,Nvidia應該是費了一番功夫才完全定型、定名,因為在產品類型與名稱上,在不同時間出現不同用語。

在2020年4月底,宣布完成資料中心網路設備大廠Mellanox併購的Nvidia,在5月舉行的GTC春季大會上,除了發表導入最新Ampere架構的資料中心A100 GPU,也宣布推出同時採用GPU與網路介面晶片的加速卡,稱為EGX A100,預計於年底推出。

他們宣稱,這是該公司首款基於Ampere架構的邊緣AI加速產品,實現邊緣伺服器巨量資料的即時處理,並將結合源於Mellanox的SmartNIC晶片ConnectX-6 Dx,以便運用當中提供的網路加速存取、資安防護機制,以提供更強大的資料運算效能,他們希望透過這樣的加速卡搭配,能讓標準化、針對專屬邊緣運算用途的伺服器,能一舉提升為具備安全性、支援雲端原生AI運算處理架構的超級電腦。

而在應用情境上,Nvidia鎖定幾種類型,例如:5G電信業者的網路信號處理(對應的Nvidia產業軟體應用框架是Aerial),零售業與智慧城市領域的影像處理、推論、分析(對應的軟體框架是Metropolis),智慧工廠的機器人手臂與自動搬運車處理(對應的軟體框架是Isaac)。

相隔近半年之後,Nvidia在GTC秋季大會期間發表兩款DPU產品,分別是BlueField-2、BlueField-2X,前者是Mellanox原本就已經推出的產品,後者的配置卻讓人感到疑惑──與EGX A100同樣是搭配Nvidia Ampere架構GPU,但SmartNIC的部分是BlueField-2,並非先前所言的ConnectX-6 Dx,所以EGX A100與BlueField-2X似乎不能完全畫上等號。當時Nvidia表示,BlueField-2X正在開發中,預計會在2021年上半推出。

不過,在2021年4月舉行的GTC春季大會上,Nvidia僅在主題演講提到與EGX A10、BlueField-2X相似的產品,稱為Aerial A100,列於EGX平臺,

這段期間他們也發表另一款稱為AI-on-5G平臺,當中搭配了專用於5G RAN與AI應用的軟體開發套件Aerial SDK,以及結合GPU與DPU的融合加速卡BlueField-2 A100。

到了6月舉行的世界行動通訊大會(MWC),Nvidia將他們推動的這類通訊加速運算平臺稱為Aerial A100 AI-on-5G,並預告2022年上半將推出新一代融合式加速卡BlueField-3 A100。

  

不過,在11月的GTC秋季大會上,Nvidia默默推出了A100X與A30X,相關的消息我們是在他們的開發者部落格看到,而在當時的GTC大會期間,他們有場主題為邊緣即時AI處理的演講,提到這樣的解決方案,而關於產品真正上市的時間,Nvidia在12月初曾回覆我們,預計在月中開始供貨,而到該公司Converged Accelerators專屬網頁探詢,已公布A100X與A30X的規格資料,但若要取得產品,目前僅提供線上登記開發套件Converged Accelerator Developer Kit的申請表單,並未看到合作廠商或相關銷售通路業者的資訊。

\

另一個後續需要關切的部分在於,BlueField-3若如Nvidia先前預告的時程,於今年上半開始提供樣品,先前他們預告的「BlueField-3 A100」也在這段期間登場,而此款融合式加速卡勢必仍是搭配A100 GPU與BlueField-3 DPU,屆時這樣的產品又該如何稱呼?

或許這些都是產品發展過渡時期必經的狀況,因為,現在融合式加速產品的形態並非是Nvidia最終想要實現的目標。

在MWC 2021大會期間,Nvidia公布AI-on-5G平臺整合階段規畫,我們可以更清楚地看到:第一步是在伺服器安裝GPU與DPU,同時是廣義的融合式加速卡與Aerial A100;第二步是合而為一成為單張加速卡,也就是如今的A100X與A30X,這也是融合式加速卡與Aerial A100概念涵蓋的產品形式;第三步則會以系統單晶片的方式呈現,到時候或許會用其他命名方式,避開兩者主從的爭議。

事實上,這樣的路線先前早已揭露,呼應了他們在2020年GTC秋季大會揭露的DPU發展藍圖(右圖),只是當時並未從硬體平臺的內部組成方式去呈現。

 

產品資訊

Nvidia A100X與A30X
●原廠:Nvidia
●建議售價:廠商未提供
●外型:雙寬全高全長介面卡(PCIe 4.0 x16)
●GPU架構:Ampere
●GPU記憶體:A100X為80 GB HBM2e,A30X為24 GB HBM2
●記憶體頻寬:A100X為1,935 GB/s,A100X為1,161 GB/s
●熱設計功耗:A100X為300瓦,A30X為230瓦
●GPU互連介面:A100X為3個NVLink橋接器,A30X為1個NVLink橋接器
●多執行個體GPU切割數量:A100X為7個,A30X為4個
●網路介面:2個100 Gb/s 乙太網路埠或InfiniBand埠

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】


熱門新聞

Advertisement