從2020年起,甫完成併購資料中心網通設備廠商Mellanox的Nvidia,開始推廣資料處理器(DPU)概念,力拱BlueField系列產品成為與CPU、GPU並列的運算支柱,於是,2019年問世的BlueField-2被視為DPU的主力。

在2021年4月,他們發表新一代DPU產品BlueField-3,預計於2022年上半提供樣品,能用於資料中心軟體定義網路、儲存、網路安全防護等應用的加速,Nvidia宣稱單一DPU所能提供的資料中心服務能力,若以CPU做為基準,需配置到300顆核心,而基於這樣強大的性能,可處理許多工作,將寶貴的CPU保留給業務關鍵應用系統。

比起上一代DPU產品BlueField-2,Nvidia強調BlueField-3具有10倍的加速運算效能,以及4倍的加密處理能力。而在硬體運算元件的搭配上,BlueField-2使用70億顆電晶體,內建8顆Arm架構的A72核心、32 GB容量的DDR4記憶體,支援200 Gb/s規格的乙太網路與InfiniBand網路,採用PCIe 4.0作為主要的I/O介面;相較之下,BlueField-3使用220億顆電晶體,內建8或16顆Arm架構的A78核心、16 GB或32 GB容量的DDR5記憶體,支援400 Gb/s規格的乙太網路與InfiniBand網路,採用PCIe 5.0作為主要的I/O介面。

在2021年8月召開的Hot Chips 33大會期間,Nvidia公布BlueField-3的更多特色,像是:在可程式化引擎的部分,除了原有的Arm處理器與ASAP封包處理器,增設資料路徑加速器(Datapath Accelerator),可在此額外提供16顆核心與256個執行緒,用戶能以DOCA軟體框架來驅動這部分的多執行緒應用程式加速;

  

針對DPU內部多個子系統之間的交互關係,以及網路交換與封包處理、儲存等層面的加速架構,Nvidia也趁著此次Hot Chips大會的演講展示圖解說明。

  

同年11月SC21大會前夕,Nvidia透露BlueField-3將導入7奈米製程,預定2022年5月提供樣品。

2022年3月GTC春季大會期間,Nvidia在介紹最新款AI整合應用設備DGX H100,提到當中將搭配2張BlueField-3加速器,可用於進階的網路、儲存、資安等服務,提供卸載(offload)、加速、隔離等處理能力,並預告BlueField-3將於這一年稍晚推出。

然而,到了今年3月舉行的GTC大會,Nvidia宣布BlueField-3進入完全量產階段,而在使用案例的部分,公有雲業者Oracle Cloud Infrastructure(OCI)已決定選用這款產品。;伺服器廠商的部分,目前有華碩、Atos、Cisco、Dell、技嘉、聯想、雲達、Supermicro;產品生態系的基礎架構合作夥伴超過24家,像是Canonical、Check Point、Cisco、Cloudflare、DDN、F5、Fortinet、Juniper Networks、NetApp、Nutanix、OVHcloud、Red Hat、VAST Data、VMware、WEKA等。

而在應用成效上,Nvidia在GTC大會分場演講裡面,公布更多資訊。例如,在雲端服務業者維運的IT基礎架構中,每臺伺服器能夠承載的執行個體(虛擬機器)總數,當然是多多益善,因為容量越大,就能帶來更大收入,他們表示,搭配BlueField-3的伺服器可提供8倍數量的執行個體服務(相較於搭配BlueField-2的伺服器)。

若用在VMware伺服器虛擬化環境,有了BlueField-3的幫忙,Redis資料庫每秒所能進行交易處理的數量,最多可增加50%,而在網路流量的處理上,可做到不占用CPU核心來進行運算。(編按:上述數據應源於Nvidia公布的白皮書Redis on VMware with Bluefield DPU,當中所用的DPU是Bluefield-2)

而在能源效率方面,以每瓦效能來衡量,面對IPsec網路加密連線處理,使用BlueField-3來進行卸載比起單靠CPU,電量增長可節省2.8倍。

針對高效能運算應用領域的成效,Nvidia表示,BlueField-3的核心可用於訊息傳輸介面(MPI)的集體處理,允許同時進行競爭與通訊,而透過API卸載處理之後所得到的科學運算工作負載效能,相當於搭配ConnectX-7網路卡系統的1.2倍,以每瓦效能而言,可提升19%,若將其大量運用在2千臺節點組成的典型超級電腦系統,預期可節省830萬美元的成本。

產品資訊

Nvidia BlueField-3
●原廠:Nvidia
●建議售價:廠商未提供
●外形:全高半長,有單槽與雙槽等兩種
單槽有6款(其中2款為E系列搭配8顆Arm核心、16 GB DDR5記憶體、單個400Gb/s QSFP112埠,其餘為P系列,搭配16顆Arm核心、32 GB DDR5記憶體、2個QSFP112埠——可選200 Gb/s或100 Gb/s)
雙槽有2款(均為P系列,搭配16顆Arm核心、32 GB DDR5記憶體、2個QSFP112埠——400 Gb/s,差異在於是否內建加密)
●網路介面:提供乙太網路、NDR InfiniBand,最高400 Gb/s,單或雙個QSFP112埠
●I/O介面:PCIe 5.0 x16
●搭配處理器與記憶體:16顆Armv8.2+ A78核心,32GB DDR5-5600記憶體
●硬體加速器:Programmable Datapath Accelerator(16顆核心、256個執行緒)、ASAP2
●遠端管理:整合BMC,可透過管理埠連入

【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】

熱門新聞

Advertisement