
圖片來源/NetApp
在新創廠商VAST Data帶頭,以及數家大廠跟進下,分散式儲存系統領域快速發展,逐漸形成分解式架構(Disaggregated)的新類別。
其中歷史最早、也最具代表性的,是VAST Data Platform儲存平臺的「分解與共享一切」(Disaggregated Shared Everything,DASE)架構。另外還有HPE的Alletra MP for File Storage,Alletra MP X10000與B10000,以及NetApp不久前發表的AFX等。
雖然同屬分解式架構,但這些產品除了分解運算與儲存單元,由獨立的控制器節點與儲存機箱共同組成叢集,這一基本概念相同,彼此的存取機制、底層架構都大相逕庭,對於支援的存取服務類型,以及擴展規模設定方面,也是天差地遠。
就運算—儲存分離的型式來說,VAST Data與NetApp都採用純粹的分離,控制器運算節點不含提供叢集儲存空間的儲存裝置;而HPE的分離相對較不「純粹」,儲存控制器節點自身也含有一定數量的SSD。
而在存取機制方面,各廠商的路線也不同,例如VAST Data的DASE架構,便結合基於儲存級記憶體(SCM)的寫入緩衝區與metadata存放區,其他廠商的分解式架構並無這種設計,仍是採用基於DRAM/NVRAM的快取緩衝區。
除了基本的運算與儲存節點,有些廠商還能為儲存叢集提供配套的輔助功能節點,例如NetApp AFX另外結合專屬的運算引擎節點,用於metadata與AI應用處理,HPE Alletra MP X10000提供搭配資料保護服務的資料加速器節點(Data Accelerator Node),這都是其他廠商沒有的設計。
至於在支援的存取服務類型,以及擴展規模設定方面,個別產品也是相差甚遠。例如VAST Data、HPE Alletra MP for File Storage與NetApp AFX都是針對物件與檔案儲存服務,但HPE Alletra MP B10000別樹一幟,專門支援區塊儲存。
而在擴展規模方面,VAST Data、NetApp AFX都支援上百臺節點,以及EB等級的最大儲存容量,至於HPE Alletra MP X10000與B10000的擴展規模相對較小,只有個位數節點,以及數PB到十多PB等級容量。
為了進一步認識這個新興領域的產品功能特色與差異,接下來我們便逐一檢視各產品基本規格特性。由於過去3年來,我們已數次在其他封面故事與專題,介紹VAST Data的平臺架構,這次改從其他廠商的新產品開始看起。
NetApp的AFX
在2024年9月InSight大會中,NetApp初次透露正在發展採用分解式概念,針對AI應用的新型ONTAP資料平臺。
整整1年後,NetApp在2025年10月正式發表這款產品,便是AFX。

NetApp AFX的叢集架構
由負責資料管理與I/O處理的AFX 1K儲存控制器,以及負責提供儲存空間的NX224儲存櫃組成分解式叢集架構,還可選配DX50資料運算節點,用於提供更高效率的metadata處理,以及額外的AI處理功能。圖片來源/NetApp
AFX由2種基本硬體單元組成,包括:負責運行ONTAP儲存作業系統的AFX 1K儲存控制器(作業系統需用ONTAP 9.17.1或以上版本),以及負責提供儲存空間的NX224 NVMe儲存櫃。
AFX還可選配DX50資料運算節點,可透過內含AMD Genoa 9554P處理器與Nvidia L4 GPU,用於執行NetApp的AI資料引擎(AI Data Engine),提供額外的高效能AI整合等進階功能,
1套AFX叢集可以包含最多128組AFX儲存控制器,52組儲存櫃,以及10組資料運算節點,可提供1 EB有效容量(含資料縮減效果),並支援pNFS、NFS、SMB、S3、NFS/RDMA等傳輸協定。
在AFX叢集架構中,資料傳輸分為前端的用戶端網路,以及後端的叢集/儲存網路等2大部分,前者用於AFX控制器與用戶端主機的連結,後者用於AFX控制器與儲存櫃之間的互連。後端的叢集/儲存網路必須使用特定型號的交換器,目前支援Cisco的Nexus 9332D-GX2B或Nexus 9364D-GX2A,分別可提供32個與64個400GbE埠。
相較於NetApp傳統架構的AFF、FAS系列儲存系統,AFX系列透過分解式架構,大幅提高擴展與運作靈活性,也簡化了系統管理。
在分解式架構下,AFX 1K儲存控制器構成負責資料管理與I/O處理的運算層,NX224儲存櫃則構成提供NVMe快閃記憶體的容量層,兩者相互分離,可各自獨立擴展,因而用戶能夠依照自身工作負載需求,調整儲存基礎架構的配置,避免過度配置資源。
除此之外,任何一臺AFX儲存控制器,都能存取叢集中任何一臺儲存櫃的SSD,不像傳統架構的AFF、FAS系列,控制器只能存取本機後端連結、數量有限的儲存櫃與SSD。
至於與控制器分離、獨立的儲存櫃,則能共同構成一個包含數十臺儲存櫃、上千臺NVMe SSD的單一儲存池,稱作儲存可用區域(Storage Availability Zone,SAZ),可由任一臺AFX儲存控制器存取,提高了資源配置與資料移動的靈活性。例如:用戶可將原本配置給某一控制器的Volume儲存區,移動給另一控制器,只需更新metadata與索引指標即可,而無須實際複製與搬運資料。
相較下,傳統架構的AFF與FAS系列,雖然也擁有數十臺儲存櫃與上千臺SSD的擴展能力,但這些儲存櫃與SSD是分別配置到特定控制器上,由個別控制器各自管理,不具備單一儲存池的靈活性,必須實際複製資料,才能在不同控制器之間移動資料。
HPE的Alletra MP家族
在VAST Data之外,HPE可說是最積極導入分解式架構的儲存廠商,先是在2023年4月,推出基於VAST Data軟體的Alletra MP for File Storage,以及基於自身軟體核心的Alletra MP for Block Storage,前者沿用VAST Data的DASE分解與全共享架構,後者則應用HPE自身的分解式區塊儲存架構。
稍後到了2024年11月,HPE又發表基於自身物件儲存軟體平臺的Alletra MP X10000,也同樣採用分解與全共享架構,也將Alletra MP for Block Storage更名為Alletra MP B10000,促使HPE在檔案、區塊與物件等3條主力儲存產品線,全部都有分解式架構的產品。
雖然這3款產品都是採用分解式叢集架構,但核心軟體不同,針對的儲存服務型式有異,規格與組態也有相當差別。
另一方面,這3款產品的底層,都是基於相同的Alletra MP硬體,因而,也形成了通用的分解式儲存硬體家族。
Alletra MP for File Storage
基於VAST Data軟體平臺,支援NFS/SMB檔案存取服務,架構與VAST Data原廠產品相同,但底層搭配的硬體裝置改用HPE自身的硬體設備,產品規格設定也與VAST Data本家不同。
基本組成是2臺2U運算節點(即控制器機箱)、1臺以上的容量節點(即JBOF儲存機箱),加上至少2臺100GbE交換器,
其中容量節點搭載了儲存級記憶體(SCM)與NVMe SSD,藉此支援VAST Data平臺特有的SCM寫入緩衝與metadata架構,但在用於存放資料本體的底層SSD方面,HPE改用TLC SSD,而非VAST Data原廠採用的QLC SSD。容量節點有標準密度與高密度等兩種款式,前者提供20臺SSD加上4臺SCM的配置,後者為22臺SSD加上8臺SCM。
相較於VAST Data原廠,HPE對Alletra MP for File Storage設定的擴展規格也較小,可擴充到最多16 PB的原生容量,大約是數十臺節點的規模。
Alletra MP X10000
由Alletra MP的硬體,搭配HPE自身的物件儲存軟體平臺而成,支援基於S3的物件存取協定,並採用全共享分散式儲存架構(Shared Everything Distributed Architecture),也就是分離運算與儲存單元的分解式儲存叢集。
X10000的基本組成,是最少3臺儲存控制器節點,與1臺JBOF儲存機箱,加上1對(2組)100GbE交換器。最大可擴充到8臺儲存控制器節點,與8臺JBOF儲存機箱,單一系統最大原生容量可達5.9 PB。控制器節點與JBOF儲存機箱搭載的SSD,原本是使用TLC SSD,不過自X10000 OS 1.2.0.0版起,又新增支援QLC SSD的選項。
除了儲存控制器與JBOF儲存機箱這2種基本節點外,X10000另外還能搭配選配的資料加速器節點(Data Accelerator Node),這種節點是HPE的StoreOnce Gen5備份儲存伺服器的衍生版本,擁有較高的資料縮減能力,用於協助X10000保存大容量的備份資料,每套X10000環境可搭配4臺資料加速器節點。
Alletra MP B10000
據我們所知,B10000應該是業界第1款,也是目前唯一採用分解式架構的橫向擴展區塊儲存陣列,不同於傳統的區塊儲存陣列,B10000的每一臺SSD都沒有特定的從屬,每一臺控制器能存取每1臺SSD,從而在存取與擴展方面取得最大的靈活性。
B10000可支援32Gb FC,以及基於10/25GbE的iSCSI與NVMe/TCP等區塊存取協定,依節點內部互連網路架構,又分為無交換器(Switchless)與經交換器互連(Switched)等2種版本,前者是讓各節點直接互連,後者則是讓各節點經由100GbE交換器互連。

HPE的Alletra MP B10000架構
傳統區塊儲存陣列架構中,無論擁有多少控制器節點、儲存櫃或SSD,所有儲存櫃與SSD都是固定配置給特定控制器(上圖左),而Alletra MP B10000的分解式架構,所有控制器都能存取任何一儲存櫃與SSD,大為提高擴展與配置的靈活性(上圖右)。圖片來源/HPE
無論哪種版本的B10000,都由儲存控制器與JBOF擴展機箱等2種節點組成,但經由交換器互連的版本可提供更大擴展能力。其中,無交換器版本最大只能組成1或2臺儲存控制器,加上最多2臺JBOF擴展機箱的架構,最大原生容量2 PB;經交換器互連版本則能視選用的儲存控制器型號,組成含有2、3、4組儲存控制器節點,搭配最多16組JBOF擴展機箱的架構,最大原生容量達5.24 PB。
VAST Data的DASE架構
我們過去曾在多個封面故事或專題,介紹VAST Data DASE架構的基本框架與規格,這次我們改從底層的架構出發,介紹其建立在分解式概念上的獨特叢集儲存技術,包括無狀態(Stateless)形式的控制器節點,以及結合儲存級記憶體與SSD的儲存節點架構。

VAST Data的DASE儲存架構
由作為控制器的CNode,與提供儲存空間的DNode組成叢集,透過基於NVMe-oF的100GbE網路互連,每1臺CNode都可以直接存取每1臺DNode上的SCM與SSD,沒有固定的從屬關係。圖片來源/VAST Data
DASE由稱作CNode的運算節點,與稱作DNode的NVMe JBOF機箱(早先曾稱為Databox)等兩種節點組成叢集,彼此透過基於NVMe-oF協定的100GbE網路互連。
首先,CNode扮演儲存控制器的角色,每臺CNode啟動時,都掛載叢集中每臺DNode的SCM與SSD,從而直接存取共享的系統狀態(從全域資料縮減到資料庫事務狀態),以及存取所有資料與metadata。至於另一種節點DNode,單純負責提供儲存空間,可搭載作為寫入緩衝與metadata儲存的SCM,以及存放資料的QLC SSD。
當CNode讀取資料,會先從DNode的SCM保存的metadata,查詢資料位置,再直接從QLC SSD讀取,無須向其他CNode請求資料,對於資料寫入,則將資料與metadata直接寫入多臺SCM與SSD。每臺CNode都可獨立完成讀寫存取,所以DASE叢集沒有CNode之間的橫向通訊。
更進一步,由於CNode不保存任何metadata與系統狀態,也無須維護CNode之間的快取一致性,這就是所謂的「無狀態式」設計,無需使用昂貴的NVRAM來做為快取與緩衝區,而且,叢集中每臺CNode都可存取所有DNode的資料與metadata,所以整個叢集中,即便99%的CNode都失效,只要有任1臺CNode還存在,就能維持正常存取。
反過來說,由於保存系統狀態的metadata與資料都位於DNode,所以DNode必須具備高可用性,為此採用了高可用性機箱設計,每組機箱含兩組DNode,從風扇、電源到網路埠都是雙重配置。高可用機箱的兩組DNode為雙主動設計,平時各自只將一半SSD提供到NVMe-oF網路上,當任一組DNode失效時,則將存取通道重新映射到剩餘的DNode上,維持存取作業。
擴展中的分解式儲存應用
最初我們從VAST Data接觸到分解式儲存叢集架構時,由於該公司以AI、HPC等應用為主要訴求,初期也是在HPC應用打響名號,我們曾以為必須是較大型的應用環境,要有上百節點的規模,才能發揮分解式架構的效益。
不過,隨著這個領域的發展,我們後來發現分解式儲存架構的應用面向,並不限於大規模環境。事實上,一些分解式儲存產品設定的規模也不大,如HPE的Alletra MP B10000只有2到4臺控制器節點規模,X10000的規模也只有3到8臺控制器節點,能適用於中小規模環境。
更進一步來說,分解式架構的配置組合與擴展靈活性,所帶來的成本節省效果,對於資源有限的中小型環境,同樣能帶來相當大的助益,應用面向可涵蓋中小到超大規模環境。
熱門新聞
2025-12-12
2025-12-16
2025-12-17
2025-12-15
2025-12-15
2025-12-15
