在現行的伺服器應用方式當中,網路介面卡(NIC)純粹只是用於提供網路連線能力,以及網路流量的卸載處理,可減輕中央處理器的負擔,無論是伺服器虛擬化/軟體定義網路、儲存、資安、IT基礎架構管理等虛擬機器應用,以及容器化應用,都大幅仰賴中央處理器。

而Nvidia在2020年3月完成併購Mellanox,正式取得乙太網路、InfiniBand、SmartNIC、DPU(Data Processing Unit,資料處理器)等技術,隨即開始大張旗鼓布局高效能運算與企業IT基礎架構應用,例如,在5月舉行的GTC Digital線上用戶大會上,積極主推資料中心規模的加速運算(Data-Center-Scale Accelerated Computing),當時發表了A100 GPU、AI整合應用設備DGX A100、結合GPU與SmartNIC的邊緣運算加速卡EGX A100、支援Omniverse協同設計平臺的RTX專業繪圖處理共享伺服器。

到了本週舉行的GTC秋季大會,Nvidia發表了多款DPU產品,分別是:BlueField-2、DOCA、BlueField-2X。

源於Mellanox的DPU運算卸載晶片與加速卡不再坐冷板凳,可望跨入泛用的企業IT領域

在Mellanox旗下的多種產品當中,大家較熟悉的是乙太網路與InfiniBand的網路介面卡、交換器、互連纜線與收發器,在超大規模資料中心、高效能運算等領域,均佔有一席之地,近期較受各界矚目的技術應用,則是對於NVMe、RDMA、GPUDirect、25GbE,以及SmartNIC的支援。因此,我們也曾陸續報導了ConnectX-6 DxConnectX-6 Lx等兩張網路介面卡產品。

不過,Mellanox還有一個系列產品遲遲未受到各界關注,那就是BlueField。這系列產品是在2016年6月問世,結合了他們的ConnectX網路卸載技術、64位元Armv8處理器,當時併購EZchip公司而得到的Tilera互連技術,隨後陸續主打NVMe over Fabrics(NVMe-oF)、SmartNIC等應用,對應儲存與網路層面的需求,並以可程式化處理器(Programmable Processors)或可程式化介面卡(Programmable Adapter)來稱呼,並強調其具有系統單晶片(SoC)的特性。

到了2018年,Mellanox改以DPU來稱呼BlueField。例如,他們在一篇探討SmartNIC部落格文章當中,提到產品實作類型時,將其區隔成ASIC、FPGA、SoC等三種,而這些類型皆可對應到該公司當時的代表產品,分別是ConnectX-5、Innova-2 Flex、BlueFileld。

不過,SmartNIC是因為5G和邊緣運算應用崛起,於是,從去年起受到各界關注,開始拓展許多使用場景,至於性能更為強大的DPU,在實際應用方式上,似乎還是很難與SmartNIC有所區隔,直到今年Nvidia併購Mellanox之後,終於幫這類產品找到明確的使用定位,而且還能搭配企業級系統軟體平臺,實用性可望大增。

BlueField-2

這款DPU產品其實早在VMware去年8月底舉辦的VMworld大會期間,就與ConnectX-6 Dx一起亮相,到了今年2月,Mellanox宣布BlueField-2的I/O處理器(I/O Processing Unit,IPU)即將推出,而在本次的GTC大會期間,Nvidia創辦人暨執行長黃仁勳正式以該公司產品來介紹它,並以「晶片上的資料中心基礎架構(Data Center Infrastructure-on-a-Chip)」來形容它。BlueField-2包含了8顆64位元Arm A72核心,以及ConnectX-6 Dx的網路介面晶片,可提供2個100 Gb/s的乙太網路埠或InfiniBand埠,而且是採用PCIe 4.0的I/O介面,每秒可處理0.7次AI運算(0.7 TOPS)。

在架構上,黃仁勳特別提到,BlueField-2能夠進行安全的運算處理,將應用程式範圍,從IT基礎設施的範圍間隔開來,可儲存加密金鑰,並且加速SHA-256認證與加密協定處理,而且能夠執行正規表示式與深度封包檢測,可用於應用程式辨識、入侵防護、網站應用程式防火牆,以及從頻外(out-of-band)角度來進行的惡意軟體偵測,此外,它也可以支援NVMe儲存應用,能用在可伸縮式區塊儲存(Elastic Block Storage)、區塊儲存加密、重複資料刪除、壓縮。

Nvidia認為,若單純使用中央處理器,同時提供上述這些功能且要達到100 Gbps的效能,可能會需要用到125顆處理核心才足夠。

黃仁勳強調,BlueField-2使用了70億個電晶體,而且是一套可程式化的資料中心晶片(Programmable data center on-a-chip),他承諾將Nvidia長期提供支援。

DOCA(Data Center Infrastructure-on-a-Chip Architecture)

這是專為BlueField而設的軟體開發套件(SDK),當中整合了多種開放API,像是用於網路的DPDK、用於儲存的SPDK、用於封包處理的P4(編按:這是一種用來控制封包轉送層的程式語言,見於路由器、交換器等網路設備),以及Nvidia發展的CUDA、AI軟體應用。

BlueField-2X

相較於BlueField-2,BlueField-2X多了一顆Ampere架構的Nvidia GPU,每秒可處理60次AI運算(60 TOPS),能以軟體的形式執行多種安全防護功能,像是異常偵測、即時流量分析(線速)、主機惡意活動檢測、動態資安調度指揮、即時線上分析已上傳的影片,而且,未來推出的BlueField-4就會直接採用這樣整合的架構。

如何讓DPU能夠支援更多應用,軟體支援的發展將是關鍵。也因此,黃仁勳花了一些時間介紹DOCA軟體開發套件。他特別將他們長期發展的CUDA來類推DOCA具有同樣的性質,並將其稱為可程式化資料中心基礎設施處理器架構(Programmable data center infrastructure processor architecture),開發者可用它來撰寫各種IT基礎設施的應用程式,像是軟體定義網路系統、軟體定義儲存系統、網路安防護系統、遙測(遠端集中管理),以及目前尚未開發出來的網路內運算(In-Network Computing)應用程式。

他強調,DOCA將完全相容與無縫整合到所有主要的作業系統,以及Hypervisor,而基於DOCA所撰寫而成的應用程式,可執行在BlueFileld-2,以及後續的BlueField版本。

接著,關於Nvidia與VMware上週在VMworld大會期間宣布合作,例如Project Monterey,黃仁勳也在此重申此事,因為當中的關鍵正是DPU。他說,「我們要將VMware移植到BlueField上,誠如BlueField是資料中心基礎設施的處理器,而VMware是資料中心基礎設施的作業系統,我們的合作將重新定義資料中心。」他強調,Nvidia能將虛擬化、網路、儲存、資安等工作處理,卸載到BlueField,實踐分散式的零信任安全運算環境,在雙方的努力之下,能讓全球三到四千萬臺伺服器的執行效能與安全防護程度,獲得大躍進。

為了印證BlueField在卸載、加速與隔離等層面的成效,他們播放了一段影片來比較差異。當中呈現的是汽車製造大廠Vovlo實際設計車輛構造的環境,他們透過虛擬化的環境,來進行產品生命週期(PLM)的CAD資料內容操作,在RTX GPU之上執行的OmniVerse提供逼真的光線路徑追蹤處理,VMware提供虛擬化、軟體定義堆疊架構,以及虛擬工作站應用,基於這樣的架構,可具備良好的網路資安防護能力,而對於大量資料的擷取、串流、載入,用於畫面的渲染,也都相當順暢。

企業可以選擇純粹採用中央處理器的伺服器架構,或是採用搭配DPU的伺服器架構,讓安全、儲存、網路的負載都卸除到BlueField當中執行,來實現上述配置。然而,若這兩種系統設計都面臨分散式阻斷服務攻擊(DDoS),就會發生不同的狀況──前者的伺服器端處理器使用率將大幅增加,設計者操作CAD內容的各種互動,將會產生嚴重延遲,因為底層的伺服器端需同時應付攻擊者的網路流量請求;後者的使用體驗維持不變,伺服器端處理器使用率無明顯暴增,設計者操作CAD內容仍然很順暢。

基於上述的展示,以及兩家公司的合作,黃仁勳認為,他們一起擁有了可程式化資料中心基礎設施平臺的一些部分,正如Nvidia握有BlueField-2資料處理器、DOCA軟體開發套件,VMware掌控了作業系統平臺。

他也預告,如今的BlueField-2只是開端,目前已經能提供樣品,BlueField-3處於完成階段,而BlueField-4正在加緊腳步開發,在增添了CUDA與Nvidia AI應用技術之後,可望更快實現網路內運算的願景。他強調,BlueField系列將彼此相容,並且採用單一軟體應用架構,也就是DOCA。

而在運算效能與網路速度的部份,黃仁勳也揭露BlueField在2020年到2023年的發展藍圖,屆時BlueField的運算吞吐量將提升1,000倍,網路速度也將從現行的200 Gbps增加到400 Gbps。

Nvidia多方牽線,主要系統軟體廠商與伺服器業者都將支援DPU

為了推動、拓展DPU的應用,Nvidia也找來許多廠商與其合作。舉例來說,單是VMware的Project Monterey,他們旗下的軟體定義資料中心平臺VMware Cloud Foundation(VCF),將會支援SmartNIC/DPU技術,他們也將針對VCF進行重構,實現伺服器處理的分散運作,而且可支援裸機型態的伺服器部署。在這樣的架構下,應用程式的工作負載可執行在一臺實體伺服器上,所耗用的FPGA硬體加速資源則是坐落在其他臺實體伺服器。同時,ESXi雖然執行在SmartNIC/DPU之上,企業仍然可以使用單一管理框架來控制所有運算基礎設施,並將網路、儲存、資安防護等功能,從原本需集中在主要的伺服器執行,改而釋放到其他地方(SmartNIC/DPU)執行,而這些功能的漏洞修補與升級作業,可獨立於伺服器本身之外來執行。

Project Monterey的進行,主要成員除了VMware、Nvidia,還有英特爾、Pensando Systems,戴爾科技集團、HPE、聯想等伺服器廠商也將基於這個計畫,推出整合系統。

若單就BlueField-2而言,Red Hat、Canonical(Ubuntu)這兩大Linux作業系統與雲端軟體平臺開發商,也計畫或宣布支援BlueField-2。同時,網路防火牆廠商Check Point也宣布整合BlueField-2,該公司旗下的Infinity Next Nano Agent代理程式軟體搭配DPU之後,可在不需損耗伺服器CPU資源的狀態下,針對伺服器進行微分段(Micro-Segmentation t)等多種安全處理運算。

在硬體伺服器的部份,Nvidia也號召多家廠商與其合作,華碩、Atos、戴爾科技集團、富士通、技嘉、新華三(H3C)、浪潮(Inspur)、聯想、廣達/雲達、Supermicro等公司,都計畫推出整合Nvidia DPU的企業級伺服器。


熱門新聞

Advertisement