以GPU聞名全球的Nvidia,這幾年以來,積極拓展資料中心解決方案,2020年陸續併購Mellanox、Cumulus Networks這兩家公司之後,而涉足網路軟硬體產品的供應,其中又以帶動資料中心處理器(DPU)的崛起,最讓人津津樂道,除此之外,隨著他們開始推出整合式AI應用設備DGX系列,需要搭配更大而穩定傳輸的網路頻寬,也趁勢鼓吹企業多多採用源於Mellanox的網路解決方案,陸續將支援200Gb與400Gb InfiniBand的網路介面與網路交換器納入建置這類系統的參考架構,而使得網路環境的搭配成為提升整體系統效能的另一個重要關鍵。
過去我們曾陸續介紹可支援乙太網路或InfiniBand的網路介面卡ConnectX-6與ConnectX-7,資料處理器BlueField-2與BlueField-3,專攻InfiniBand的網路交換器Quantum-2 QM9700,這些都是出自Mellanox的手筆,但其實他們還有乙太網路交換器Spectrum系列、網路纜線與收發器等互連器材LinkX系列,可惜相關的產品發表資訊相對較少,然而這並不代表他們不重視兩條產品線。
例如,在2020年5月舉行的GTC春季大會期間,Nvidia當時剛完成Mellanox的併購,創辦人暨執行長黃仁勳在線上主題演講影片開場10分鐘內,就特別向全球觀眾展示甫於同年3月問世的400GbE乙太網路交換器:Spectrum-3 SN4000系列,之後又秀出2月推出的資料處理器BlueField-2,以此歡迎Mellanox加入他們公司的行列。
到了2022年3月舉行的GTC春季大會,Nvidia終於推出下一代乙太網路平臺Spectrum-4,當中涵蓋網路卡ConnectX-7、資料處理器BlueField-3,以及採用ASIC晶片Spectrum-4的網路交換器SN5000系列,希望以此打造全面支援400GbE連線規格的網路平臺。
根據當時發布的新聞稿指出,ConnectX-7已上市,BlueField-3資料處理器與Spectrum-4交換器預計同年稍晚上市。
然而,到了今年3月舉行的GTC春季大會,Nvidia明確公開表示,BlueField-3已進入全面量產,而在5月24日發表的2024第一季財報時,他們透露多個產品正在生產當中,Spectrum-4網路平臺就是其中之一。
事隔幾天後舉行的台北國際電腦展期間,令人意外的是,Nvidia又有網路解決方案的新消息,那就是推出名為Spectrum-X的網路平臺,他們表示,這是針對使用乙太網路的AI雲端環境、專為改善其效能與效率而設計的加速網路平臺,是一種新的乙太網路應用類型,能夠用於多種AI系統,它可以掃除新世代生成式AI工作負載的障礙,具有改變整個產業的潛能,而且完整採用標準乙太網路的規格,能與其他同樣基於乙太網路的技術堆疊互通。
而在導入成效的部分,Nvidia強調Spectrum-X對於整體AI效能與電力使用效益,改善的幅度可達到1.7倍,同時,此平臺也能用於多租戶環境,提供持續、可預期的效能輸出。
包含4大軟硬體技術,提供乙太網路產品線更多市場動能
這套平臺是由哪些元件所組成?它涵蓋Spectrum-4交換器(圖1位置)、BlueField-3資料處理器(圖2位置)、LinkX光纖網路線材與收發器(圖4位置),以及網路作業系統與軟體開發套件(圖3位置),目前已開始供貨,可透過Dell Technologies、聯想、Supermicro這三家系統廠商取得。
以交換器而言,它採用的Spectrum-4晶片導入台積電4N製程,而且是基於1千億顆電晶體而成,網路交換容量最大可提供51.2 Tb/s,密碼學引擎可處理的流量為12.8 Tb/s,以此支援AI網路環境的應用需求;若是從交換器設備的角度來看,搭配Spectrum-4晶片的SN5000系列,可支援800GbE(SN5600系列,內建64個800GbE埠、可分接出128個400GbE埠),以及400GbE、200GbE、100GbE、50GbE、40GbE、25GbE、10GbE、1GbE(SN5600系列與SN5400系列),而且也提供進階RoCE延伸應用選項,能橫跨多臺Spectrum-4交換器使用。
在資料處理器的部分,BlueField-3提供超高速網路介面與交換器承接之餘,更重要的是,它具有強大的運算力與能延伸多種用途的可程式化功能,可針對軟體定義網路、儲存、資安等應用,提供400 Gb/s線速處理效能,而在Spectrum-X平臺的架構下,可運用RoCE加速處理機制,支援多租戶、零信任資安,提供控制層(control plane)的重要功能。
至於LinkX纜線與收發器的部分,在建構全面支援400GbE的網路環境,也和BlueField-3一樣扮演重要角色。因為這系列產品可提供直連銅質纜線(DAC)、主動式銅質纜線(ACC),以及光纖纜線,連接基於OSFP、QSFP而成的交織網路,而結合這些產品之後,可建立具有高能源使用效益的AI網路環境。
除了實體層設備的配置,Spectrum-X可支援多種網路系統軟體與加速軟體應用。例如,Spectrum-4交換器可搭配開放式網路作業系統(NOS),像是源於Cumulus Networks公司的Cumulus Linux,或是Linux基金會管理的SONiC,無論是透過前者的採用或透過開放網路安裝環境(ONIE)部署至Spectrum-4交換器,都能運用Spectrum-X授權,企業可在購買交換器時一併納入,或事後以獨立的採購方式增添授權均可。
而在加速軟體方面,Spectrum-X可支援同樣源於Cumulus Network公司的網路維運管理軟體NetQ,提供即時的流量透視、障礙排除與驗證功能;而在軟體開發套件的部分,Spectrum-X支援他們晚近發展但尚未完全公開的Ethernet Switch SDK,用戶能透過複雜的程式化機制實作各種網路交換與路由功能,善用交換器晶片內建的進階網路功能,而不會因此嚴重影響封包傳送率、頻寬、存取延遲的效能表現。
同時,由於Spectrum-X本身也涵蓋資料處理器的使用,因此,這裡當然也支援可發揮此產品功能的DOCA框架與SDK,方便用戶建置以資料處理器加速執行、配備零信任防護的軟體定義服務,因應當代資料中心持續增加的效能與資安需求。
將InfiniBand獨有特色帶入,創造新型態的乙太網路環境
為何現在要開始更重視資料中心的乙太網路環境配置?在今年台北國際電腦展舉行的Nvidia主題演講,黃仁勳特別提到幾個關鍵因素。
在2020年GTC春季大會,他首次提出「資料中心就是新的運算單位(Data Center is the New Unit of Computing)」的論調,到了2022年GTC春季大會,他談到「資料中心正轉變為 AI工廠(data centers becoming AI Factories)」,而在今年的台北國際電腦展演講,他基於上述兩種概念說出「資料中心的用途取決於網路(The network defines what that data center does)」,以此突顯網路對於資料中心的重要性。
接著,黃仁勳花了一些時間解釋Nvidia現在看待網路的方式。
他們將現行的資料中心分成兩種,一是用於超大執行規模(hyperscale)、需廣泛支援各種應用程式工作負載、租戶數量多的雲端服務環境,網路耗損大(lossy),著重快速恢復連線的韌性,一是用於超級電腦運算、工作負載之間緊密耦合、租戶數量少的AI工廠,網路耗損小(loss-less),著重高效能,而為了促成每個資料中心都能發展生成式AI,Nvidia決定發展新的乙太網路應用方式,不僅要相容既有的各種系統存取,也需要透過工程的角度找出路,達到所有資料中心都能有效承擔AI工作負載的目標,而這項策略的核心,就是推出全新的交換器,亦即Spectrum-4交換器,是專門為了實現新型乙太網路應用所設計的。
相較於InfiniBand每個環節是由少數廠商主導其發展,而能在交織網路運算(fabric computing)當中,做到隨需調整路由(adaptive routing)、流量壅塞控制、效能隔離,
黃仁勳表示,他們現在打算運用這樣的概念來打造新的資料中心乙太網路環境;而為了實踐這樣的理念,這套可用於支撐AI應用需求的乙太網路系統,不僅仰賴Spectrum-4交換器這個關鍵,還需要搭配資料處理器BlueField-3、LinkX系列纜線與收發器,使得這張加速運算卡與交換器彼此的400GbE埠能夠實體連接,再加上執行在兩種設備的網路作業系統與加速軟體開發套件,從而能更徹底地展現Spectrum-4的能耐。
以上述架構建立高效能網路環境之餘,Nvidia也有意將此平臺推廣到全球雲端服務供應業者使用。黃仁勳說,大家對此都有很不錯的反應,理由也很清楚,因為他們都希望每一座資料中心都能轉型,升級為可充分支援生成式AI應用的資料中心。
對於部分有這方面需求的公司而言,他們早已全面部署乙太網路,而且所維運的資料中心有許多用戶,如果想擁有InfiniBand網路環境才能運用的各種功能,做到更有效的用戶連網效能隔離,其實是相當困難的,因此,Nvidia決定率先將高效能網路的功能帶到乙太網路的市場應用中。
若導入Spectrum-X平臺,乙太網路環境可獲得那些好處?首先是隨需調整路由(adaptive routing),能基於資料中心的整體流量來處理——若交換器的網路埠出現過度壅塞狀況,可通知BlueField-3從交換器的另一個網路埠進行傳輸,BlueField-3可對傳輸的資料進行重新組裝、將資料直接提供GPU,這些工作全部在遠端直接記憶體存取(RDMA)完成,而不需要中央處理器介入(先傳至中央處理器),再送至GPU。
第二是流量壅塞控制,交換器可能有多個網路埠同時面臨流量嚴重堵塞的狀況
,而透過交換器的遙測(telemetry)機制,每臺交換器可得知網路目前的運作方式,並與流量發送者進行通訊溝通,請它們現在不要再傳送資料過來,因為此舉正在造成網路壅塞。
而這個控制方式的實現,基本上,是透過凌駕既有配置的系統(overriding system),從軟體到交換器之間均在它涵蓋的範圍之內,並與當中的所有端點一起合作,進而能以整體的方式來管理資料中心網路的壅塞,或是傳輸流量、吞吐量等狀態。
黃仁勳強調,在一個高效能運算的應用系統當中,每顆GPU都必須完成它所負責的工作,應用系統之後才能繼續執行下個工作,在很多情況當中,必須要等到每一個結果出爐,才能完成全部的轉換處理,然而,如果其中一個節點耗費太久時間,將會導致每個節點都會連帶受到拖延,而有了Spectrum-X帶來的這些功能,將可大幅提升乙太網路的整體效能。
關於雲端業者現行資料中心使用的網路環境配置,與能否支援生成式AI應用之間的關聯與必要性,在6月底由Piper Sandler 投資公司主持的「Networks For AI」線上研討會,Nvidia網路部門資深副總裁Gilad Shainer提出一套更詳細的說法。
他將目前普遍使用的傳統乙太網路,與Nvidia發展的Spectrum-X乙太網路進行對比,目的是突顯該公司所主打的Spectrum-X,是最適合打造Ethernet for AI fabric、Ethernet fabric built for AI的解決方案。
Nvidia認為,傳統乙太網路的架構與使用者存取網路的設計,是以支援南北向(縱向階層式存取)的網路流量傳輸為主,適合用於鬆散耦合的應用系統、低頻寬與低使用率,以及異質、多路徑的網路傳輸需求,而且對於流量的劇烈起伏(抖動)具有高度容錯的能力;而他們所打造的AI fabric乙太網路,除了能支援使用者與雲端服務之間的南北向網路存取,還能支援東西向(橫向扁平式存取)的處理,適合緊密耦合的分散式應用系統,可運用RoCE來提供更大的網路頻寬與更高使用率,能因應暴增的網路用量、提供可預期的傳輸效能,但對於流量抖動容忍力較低。
而這樣的新型乙太網路平臺,之所以能實現,關鍵在於網路交換器與資料處理器之間的傳輸方式,能夠結合軟體進行最佳化調節,達到傳輸耗損更小、可控制流量壅塞,以及多租戶存取效能互不干擾(彼此隔離)的要求,Nvidia表示,若以傳統乙太網路為比較基準,Spectrum-X可提供1.6倍傳輸效能,而在有效頻寬的供應上,Spectrum-X可達到95%,乙太網路則是60%。
經歷兩次消息發布,Nvidia揭露更多Spectrum-4交換器規格
作為Spectrum-X平臺的核心,Spectrum-4交換器本身的規格自然受到很大的矚目,而在去年GTC春季大會期間已揭露一些部分,除了上述我們提到的晶片製程與網路頻寬、處理能力、介面,Nvidia也強調比起前一代產品,提供4倍的網路交換吞吐能力(1臺抵4臺,可減少交換器設備的部署數量)、節省40%耗電量,也能針對RoCE網路傳輸模式進行最佳化調校,大幅加速資料中心網路效能。
而在晶片層級的功能上,Spectrum-4也支援MACsec、VXLANsec等加密安全防護網路規格,並且搭配硬體信任根而能預設使用安全開機機制,確保資料流量與網路管理作業的完整性與機密性。
在網路介面的支援上,Nvidia在新聞稿與大會主題演講,均提到Spectrum-4可提供128個400GbE埠,不過,在分場演講的產品細部介紹內容,我們看到搭配這款ASIC晶片的兩款交換器,其實都能支援更高規格的800GbE——SN5600內建64個800GbE埠,可分接成128個400GbE埠;SN5700內建32個800GbE埠,可分接成64個400GbE埠,而且這裡也可以看到這些交換器搭配Spectrum-4這顆交換器ASIC晶片之餘,也都搭配英特爾6核心Xeon處理器、32GB記憶體、256 GB固態硬碟,儼然就是一臺臺專門支援軟體定義網路服務的伺服器;
此外他們也趁機介紹何謂隨需調整路由,以及Spectrum晶片特有的全共享緩衝架構。
到了今年台北國際電腦展的Nvidia主題演講,黃仁勳重申並揭露更多Spectrum-4晶片與交換器的規格。例如,他直接展示Spectrum-4晶片,長寬均為90公釐,底部有800個球柵陣列封裝(BGA),熱設計功耗為500瓦,而舞臺上展示搭配此晶片的整臺交換器,熱設計功耗為2800瓦,使用氣冷散熱,裡面總共有48張印刷電路板相互連接。
產品資訊
Nvidia Spectrum-X
●原廠:Nvidia
●建議售價:廠商未提供
●基本組成元件:
SN5000系列乙太網路交換器(採用Spectrum-4晶片,可安裝Cumulus Linux或SONiC等兩種網路作業系統)、
BlueField-3資料處理器、
LinkX網路纜線與收發器(400GbE)、
Spectrum-X使用授權(可部署Cumulus Linux系統或ONIE環境,訂閱期間有90天、3年業務標準支援或業務關鍵支援、5年業務標準支援或業務關鍵支援)
●RoCE擴充套件功能:自我調適路由、流量壅塞控制、傳輸效能隔離
●網路埠:最高為64個800GbE埠(SN5600),可分接為128個400GbE或40GbE埠、256個200GbE埠、100GbE埠、50GbE埠、25GbE埠、1個10GbE埠
●支援軟體平臺:NetQ、NCCL、Nsight、Bright Cluster Manager
【註:規格與價格由廠商提供,因時有異動,正確資訊請洽廠商】
熱門新聞
2024-09-29
2024-10-01
2024-10-01
2024-10-01
2024-09-29
2024-09-30
2024-09-30