圖片來源/Hammerspace

網路附接儲存設備(NAS)與檔案儲存系統領域,正掀起一波架構變革風潮。

回顧NAS領域上一次的架構變革風潮,是十多年前隨著非結構化資料儲存與巨量資料應用需求而興起,促使叢集形式的橫向擴展架構(Scale-Out),取代傳統的縱向擴展架構(Scale-Up)成為主流。現在這一波NAS架構變革風潮,則是AI與GPU應用帶動,讓具備超大規模(Hyper scale)擴展能力、高效能,以及簡便管理等特性的新世代平行檔案儲存系統,開始進入企業應用。

NAS架構的世代進化

當前用於檔案型態儲存服務的NAS產品,是由早先的檔案伺服器進化而來,大約在1990年代初期開始通行於儲存市場,自此之後的三十年間,NAS的核心架構歷經了數次變革。

最初的NAS採用的是縱向擴展架構,由單一控制器作為核心,搭配擴充儲存櫃,具備一定的容量擴展能力,但若要提升I/O處理效能,必須更換控制器,不僅升級缺乏彈性,擴展規模也有限。不足以因應2000年代的非結構化資料暴漲、以及巨量資料應用需求,這便促成了叢集化的橫向擴展架構NAS誕生。

橫向擴展NAS由多組控制器構成的節點,相互連結組成叢集,只要增加節點數量,就能同步提高儲存容量與I/O效能,克服傳統縱向擴展NAS的擴充彈性與擴展規模問題。

接下來到了2010年代後期,隨著AI與GPU應用的興盛,又給檔案儲存平臺帶來新的挑戰,進而促成新一代超大規模平行存取架構NAS問世。

AI應用帶來的儲存挑戰

AI應用的興起,為搭配的儲存設備,帶來空前的效能與規模擴展能力壓力。

首先,用於AI訓練的GPU運算設施,無論建置還是操作維持成本都十分昂貴,為了發揮GPU運算設施的效益,必須盡可能減少GPU閒置,為此儲存設備必須以盡可能高的速度,向GPU伺服器饋送資料,同時也須滿足高突發性(Highly bursty)的檢查點資料寫入,因而儲存設備必須提供數十GB/s等級,甚至TB/s等級的超高資料吞吐傳輸能力。

其次,為應付AI訓練不斷激增的資料量,讓原本只存在高效能運算(HPC)領域的超大規模擴展需求,帶到企業環境,數百TB、 PB等級空間,在AI訓練環境只是基本需求,上百PB甚至數百PB資料量也已有許多案例,這意味著儲存平臺必須具備數百節點等級的擴充能力,才能提供數百PB等級儲存空間。

第三,隨著AI訓練資料量的增加,讓metadata的管理成為新的效能瓶頸。基於平行存取的AI應用工作負載,在許多情境下所產生的metadata查詢請求數量,甚至會超過I/O存取操作的數量,這也讓傳統儲存平臺基於循序存取的metadata架構陷入困境,難以擴展metadata管理架構,成為效能瓶頸。為此儲存平臺需要提供高效率、高擴充性的metadata管理架構。

適用AI環境的平行檔案系統

在HPC領域,原本就已有多種廣獲使用的平行檔案系統,具備超大規模擴展能力、高吞吐率等特性,如開源的Lustre、Glusterfs、BeeGFS,商用的IBM GPFS(Spectrum Scale)等,原則上也適合AI應用需求。

平行檔案系統是分散式檔案系統的一種,分散式檔案系統可將分散的多組儲存裝置,透過網路互連,構成共同檔案系統命名空間,並可搭配跨節點複製、自動失效切換、負載平衡等功能,提供高擴展、高可用性與高效能等特性。

平行檔案系統則進一步採用跨多個儲存節點,平行執行存取作業的架構,將資料分割散佈到多個儲存節點上,並搭配特定的用戶端存取協定,透過多條I/O路徑同時發起與執行存取作業,藉此匯聚出更高的I/O效能。

要特別注意的是,平行檔案系統必然是分散式的,但分散式檔案系統未必是平行存取的,許多分散式檔案系統的設計目的,是透過分散的節點來獲得高擴展性、高度資料冗餘性或高可用性,但並不提供用戶端平行存取多個儲存節點的能力,這也形成平行檔案系統與一般Scale-Out NAS之間的關鍵差異。

Scale-Out NAS與平行檔案系統,同樣都是分散式、叢集化的檔案儲存平臺,但是Scale-Out NAS對於用戶端的存取,是透過標準的NFS、CIFS等協定來執行,這些協定無平行存取多個儲存節點的能力,但個別用戶端只能從特定節點存取資料,限制了傳輸效能。

平行檔案系統則透過專屬的用戶端軟體,為用戶端提供平行存取多個儲存節點的能力,任一用戶端都能透過平行存取得到高傳輸效能,而這種特性,也讓平行檔案系統被認為是滿足AI應用效能需求的最佳選擇。

既有平行檔案系統的局限

HPC領域雖已有多種老牌平行檔案系統可用,擁有豐富的應用實績,但若要推廣到企業環境,便會暴露出架構複雜、操作與管理困難等一系列問題。

例如部署架構複雜,需要使用多種不同用途節點,搭配多種橋接器或閘道器來組成叢集,非標準化的專屬用戶端軟體也存在設定與維護困難等問題,以致形成推廣到企業AI應用的障礙,通常只有技術能力較佳的用戶,才能駕馭這些平行檔案系統,使用門檻相對較高。

這樣的情況,也在近年來促成新一代高效能平行檔案系統的誕生,試圖在滿足高傳輸效能、大規模擴展能力,以及高效率metadata管理架構等需求的同時,又兼具企業環境應用所需具備的部署與管理便利性,以便能推廣到更廣泛的企業應用環境。

新一代的平行檔案系統同樣具備高效能與高擴展能力,但採用更新穎的核心架構(例如容器化),叢集型態與連接架構都更簡化,且能原生支援多種傳輸協定,不像老一代系統需搭配多種閘道器或橋接器才能應付不同存取介面。新一代系統也開始採用標準化的用戶端平行存取協定(如pNFS),擺脫專屬用戶端軟體帶來的麻煩,還能提供從雲端到本地端的多樣化部署型態選擇,資料服務與安全性功能也更完整,且特別講求操作管理便利性,大幅降低使用門檻。

新世代平行檔案儲存平臺興起

自2010年代末期起,在VAST Data、Weka、Hammerspace等數家新創廠商的引領下,新一代平行檔案儲存平臺憑藉架構、效能與功能方面的一系列嶄新特性,在多項AI與HPC相關的大型專案中,取得突出表現,迅速打響名號。

這些新創廠商的成功,促使老牌儲存大廠陸續被吸引投入這個領域,例如DDN、Quantum與Pure Storage,都跟進推出類似的新式平行儲存平臺,HPE與Hitachi Vantara則透過OEM方式取得VAST Data、Weka的平臺,推出自身的同類產品,NetApp、Dell也正在開發類似架構的新儲存平臺。而這一系列發展,也在儲存市場掀起一波針對AI應用的新興平行檔案儲存平臺浪潮。

引領潮流的新創廠商平臺

這一波新興平行檔案儲存平臺中,最早投入市場的是Weka,2017年7月發表高效能平行分散式檔案系統MatrixFS,也就是今日WekaFS檔案系統的前身,擁有容器化核心架構、整合於Linux容器內的RTOS運作架構、運行專屬網路傳輸協定的用戶端軟體、獨特快取加速技術等嶄新特性,從2018年起,藉由在IO500高效能運算儲存效能榜單締造一連串佳績,而在儲存市場聲名大噪。

接著是VAST Data,2019年2月推出其VAST Data Platform儲存平臺,也很快取得市場佳績,成功為xAI等AI訓練廠商,以及CoreWeave 、Lambda等雲端GPU運算服務商提供儲存平臺服務,從產品首發到獲得10億美元估值,只花了17個月,創下儲存領域獨角獸企業新紀錄。

VAST Data採用獨特「分解與共享一切」(Disaggregated Shared Everything,DASE)叢集架構,結合儲存級記憶體(SCM)與QLC SSD的混合固態儲存組態,雖然不是標準的平行存取架構,但可透過用戶端軟體啟用多路徑NFS掛載功能,來獲得類似能力。

然後是Hammerspace,在2021年發布其Hyperscale NAS平臺,擁有matadata與資料分離管理架構,獨特全域資料平臺(Global Data Platform)分層,建置在GPU伺服器端的Tier 0儲存層,支援標準用戶端平行NFS(parallel NFS)存取協定等特性,最著名的應用案例,便是被Meta用於Llama 2、3、4大語言模型的超大規模AI訓練設施,還有幾個大型案例(如Los Alamos實驗室、Blue Origin航太、Jellyfish Pictures數位影像等)。

VAST Data、Weka、Hammerspace在2020年代的迅速崛起,除了產品架構確實有許多創新亮點,也是時勢與環境的造就——這些產品的問世時間點,適逢AI浪潮興起,讓這些訴求高效能與大規模擴展的儲存平臺,順勢登上AI應用這個正好可以發揮所長的舞臺。

不可忽視的中生代平臺

事實上,早在2010年代初期,便有幾家廠商推出同樣具備多種嶄新特性的平行檔案系統,但當時缺乏AI這種熱門應用的帶動,因而聲勢也大不如前述幾家後進廠商。這些「中生代」的平行檔案儲存平臺,較受矚目的是Qu0byte與Qumulo這兩家。

2013年成立的Quobyte,先後獲得空中巴士、Yahoo日本、英國JASMIN超級電腦組織採用,其平臺強調基於標準化軟、硬體環境的彈性的部署架構,儲存伺服器的資料服務與metadata服務等元件可以合併或獨立部署,搭配原生用戶端軟體,提供高效能平行存取、預先載入、自動快取與延遲寫入等存取服務。

2012年成立、2015年發表產品的Qumulo,在HPC領域擁有一定的實績,特色是分散式metadata,以及基於快閃記憶體的快取機制,可將所有metadata、頻繁讀取的虛擬區塊都存放於快閃記憶體層,來提高存取效能。雖然不屬於標準的平行存取架構,但可在用戶端透過 SMB Multichannel協定獲得類似能力。

急起直追的老牌大廠

VAST Data、Weka與Hammerspace等廠商的成功,促使老牌大廠也跟進投入新世代平行儲存系統領域。

例如,HPE與Hitachi Vantara都是透過直接引進第3方軟體平臺方式,加入這場戰局。HPE在2021年,便曾推出以Apollo伺服器搭配Qumulo平臺的產品。接著再2023年初,又藉由VAST Data的軟體核心,打造出自身的Alletra MP檔案儲存服務平臺;Hitachi Vantara則在2021年中,採用Weka的軟體平臺,推出自身的HCSF產品線。

Pure Storage、Quantum與華為,則自行發展了新的平行儲存平臺。如Pure Storage在2025年4月發表的FlashBlade//EXA,採用metadata與資料I/O分離架構,並支援用戶端平行NFS存取(pNFS)。華為則是在2024年初,發表與Oceanstor A800高效能NAS搭配的OceanFS平行檔案系統。Quantum也在2024年初發表全新的Myriad分散式檔案與物件儲存系統(但其支援平行存取的用戶端軟體,今年稍晚才會推出)。

另兩家大廠NetApp與Dell,據稱都正在開發現有儲存平臺的平行存取版本。

NetApp在2024年9月的InSight大會,透露正在發展針對AI應用的ONTAP資料平臺,採用分解(Disaggregation)儲存控制器與儲存節點的概念(類似VAST Data),控制器與儲存節點彼此間透過RDAM乙太網路互連,再結合對平行存取協定的支援(例如pNFS),實現從用戶端到儲存端的高頻寬平行存取。

另一家儲存大廠Dell,據傳也在開發平行存取架構的PowerScale平臺(可能是發展搭配PowerScale的用戶端平行存取軟體)。

至於兩大傳統平行檔案系統供應商方面,IBM仍堅守其老牌的GPFS/Spectrum Scale平臺,DDN則在主力產品——基於Lustre平臺的ExaScaler之外,於2023年底推出全新開發的Infinia分散式儲存平臺,等同變相承認:老的Lustre平臺在面對新一代平臺競爭時有所不足,因而另外開發全新平臺作為因應。

Infinia採用控制、資料服務與儲存單元分離架構,可擴展的儲存單元採用Key/vault存放架構,結合容器化的資料服務單元,現在仍以支援標準傳輸協定為主,但日後也會增加平行存取功能。

角逐儲存應用的頂點

整體而言,新一代平行檔案系統瞄準的應用情境,是為大規模、運算密集的AI與HPC環境提供儲存服務,注定這些平臺的用戶群體數量有限,只有相對少數的企業用戶,能負擔這種應用環境的高昂成本,也讓這類平行檔案系統難以成為主流應用。

儘管用戶群體數量有限,但平行檔案系統針對的應用型態,卻是當前最引人注目、也最具前景的AI相關領域,因而擁有巨大的影響力,堪稱當前儲存應用的頂點,是任何有企圖心的新創廠商,以及積極保有影響力的儲存大廠必爭之地,在未來幾年內,相關的發展都將成為儲存業界的焦點。

 

 NAS演進的3個世代 

1990年代的NAS主流是縱向擴展式(Scale-Up),自2000年代起,橫向擴展式(Scale-Out)架構NAS逐漸成為主流,可透過大量節點組成叢集架構,獲得龐大的擴展能力。

隨著AI應用的興盛,則促成基於平行檔案系統的超大規模NAS崛起,不僅能透過叢集架構提供龐大的擴展能力,還能透過平行存取架構,為用戶端提供可擴展的I/O效能。圖片來源/Hammerspace

 

 平行檔案系統 vs. Scale-Out NAS 

關於平行檔案系統與橫向擴展(Scale-Out)NAS,架構上有許多相似之處,都是由多個儲存節點組成叢集,並跨多個節點分散存放資料,關鍵差異在於用戶端存取架構不同。

一般Scale-Out NAS的用戶端,是使用NFS、CIFS等標準協定來存取,沒有平行存取多個儲存節點的能力,用戶端是接入NAS叢集中的某個節點來獲得存取服務,與叢集之間只有1條I/O路徑,由於資料是分散於多個節點上,因此用戶端的每個讀寫I/O要求,會透過查詢metadata,從接入的節點與實際存放資料分段的各節點之間往返傳遞,節點之間將產生很大的通信流量。

平行檔案系統則可利用專門的用戶端軟體,提供同時存取多個儲存節點的能力,可從資料所在的多個節點上,透過多條I/O路徑同時直接存取這些資料。

所以,Scale-Out NAS儘管也能透過大量節點組成叢集,匯聚出可觀的效能,但是對個別用戶端所能提供的傳輸效能有限;而平行檔案系統的個別用戶端,都能透過跨多個節點的平行存取,獲得極高的I/O效能。圖片來源/SNIA

 

 乘AI熱潮崛起的新世代平行檔案系統 

新一代平行檔案系統近來的迅速興起,可歸因於AI熱潮提供了發揮舞臺,例如Hammerspace與Meta的合作便是著名案例。Meta的Llama 2、3、4大語言模型基礎設施的儲存服務,都是採用Hammerspace的平行檔案系統。上圖為Llama 3基礎設施的儲存架構,Hammerspace負責matadata服務,搭配Meta自身儲存叢集平臺作為資料儲存空間。圖片來源/Hammerspace


HPC平行檔案系統 vs. 新世代平行檔案系統

 類型  Scale-Out NAS

 擴充性  高,數十到上百節點

 叢集傳輸效能  高,數十到上百GB/s等級

 部署管理便利性 

 可靠性/安全性 

 資料服務功能  完整


 類型  HPC平行檔案系統

 擴充性  極高,數百到上千節點以上

 叢集傳輸效能  極高,數百GB/s到數TB/s等級以上

 部署管理便利性  低

 可靠性/安全性  較低

 資料服務功能  較少


 類型  新世代平行檔案系統

 擴充性  極高,數百到上千節點以上

 叢集傳輸效能  極高,數百GB/s到數TB/s等級以上

 部署管理便利性  高

 可靠性/安全性  高

 資料服務功能  完整

資料來源:iThome整理,2025年5月

熱門新聞

Advertisement