Dell

在這波分散式RAID技術應用風潮中,就市面上的儲存廠商而言,最重要的推手便是Dell。在6年前,亦即我們上次介紹分散式RAID時,Dell旗下只有入門級的PowerVault MD3系列儲存陣列,擁有分散式RAID架構,而且,技術也非自有,而是OEM自NetApp的Dynamic Disk Pool(DDP)。

不過,在此之後,Dell陸續為其他儲存陣列產品線引進分散式RAID功能。例如,先是中階的Unity與Unity XT系列,然後是中—高階的PowerStore系列,最後連高階的PowerMax系列,也在近期的更新中,引進分散式RAID功能。

而在入門級的PowerVault系列方面,他們2019年發表的ME4系列,也改用源自Seagate的分散式RAID功能ADAPT(Autonomic Distributed Allocation Protection Technology)。

於是,到了現在,Dell一躍成為對分散式技術支援最著力的一線大廠,因為旗下全部儲存陣列產品,都有了分散式RAID功能。

例如,PowerVault ME4與ME5系列使用ADAPT,Unity與Unity XT系列使用Dynamic Pools,PowerStore系列使用Dynamic Resiliency Engine,以及PowerMax系列使用Flex RAID。其中的ADAPT並非Dell自身原生技術,我們會在另一篇文章介紹,接下來我們聚焦於Dell發展的3種分散式RAID技術。

Unity系列與Unity XT系列採用的Dynamic Pools

Dell最早是在2017年7月發布的OE 4.2版作業系統中,為Unity系列提供Dynamic Pools功能,但只適用於全快閃組態的機型,稍後於2022年4月發布的OE 5.2版作業系統,又擴展Dynamic Pools的適用機型,涵蓋到Unity家族中的混合陣列款式。

當Unity系列的OE作業系統開始升級到這2個版本後,Dynamic Pools成為預設的儲存池組態,系統雖然允許保留用戶先前建立的傳統儲存池(Traditional pool)繼續使用,但不允許建立新的傳統儲存池,後續儲存池只能是Dynamic Pools類型。

Dynamic Pools基本的運作單元是磁碟合作群組(Drive Partnership Groups),由1組磁碟機構成,每個磁碟合作群組只能包含同類型磁碟機,例如,7200轉機械式硬碟會設置在一個群組,1.5萬轉硬碟設置在另一個群組,SSD同樣會設置在一個別於前兩者的群組,但每個群組能夠包含同類型、但不同容量的磁碟機。接著,對於不同類型磁碟組成的磁碟合作群組,Dynamic Pools能組成分層式的統一儲存池。而且,每個磁碟合作群組可包含最多64臺磁碟機,至於最小磁碟數量要求,則視用戶選擇的RAID類型而定。

Unity系列的Dynamic Pools架構
基本運作單元是磁碟合作群組,最多可包含64臺磁碟機,群組中所有磁碟空間將被切分為Drive Extent虛擬區塊(DE),部分Extent區塊被保留為備用空間,其餘DE區塊再依照不同RAID層級與Stripe寬度,組成RAID Extent區塊,然後再指派給私有RAID Group,從中建立提供給用戶端的LUN儲存區。圖片來源/Dell

Dynamic Pools的架構

如同其他分散式RAID技術,Dynamic Pools也是建立在區塊虛擬化技術的基礎上。所有Dynamic Pools中的磁碟機,都會被格式化、成為稱作Drive Extent(DE)的虛擬化區塊,每個DE區塊的大小為GB等級。依磁碟機的類型,採用的DE區塊大小是固定的,基本上,容量越大的磁碟機,格式化後的DE區塊數量也越多。

建立Dynamic Pools儲存池,並且將所包含的磁碟機格式化為DE區塊之後,系統會將部分DE區塊指派為備用空間Extent區塊(Spare Space Extent)。此時,用戶可將Dynamic Pools儲存池當中的每32臺磁碟機,保留相當於1或2臺磁碟機容量的備用空間Extent區塊。

相較於傳統RAID,往往指派1或2臺磁碟機,專門擔任熱備用(Hot Spare)角色,Dynamic Pools作為備用空間Extent區塊,則是分散在整個儲存池的所有磁碟機,既可提供同等保護能力,也不會成為重建時的效能瓶頸。

在指派部分DE區塊作為備用空間區塊之後,剩餘的Extent區塊,將依用戶設定的RAID類型與Stripe寬度,組成RAID Extent區塊。

舉例來說,如果用戶設定4+1的RAID 5,那麼,RAID Extent便會包含5個Extent區塊(其中1個作為Parity)。Dynamic Pools可以支援RAID 1/0(即RAID 10)、RAID 5與RAID 6,共3種層級,視儲存池所包含的磁碟機數量多寡,不同RAID層級可選擇的Stripe寬度設定,也會隨之有異,進而影響磁碟空間的利用率。

以RAID 5來說,最小Stripe寬度是4+1,須要6到9臺磁碟;最大Stripe寬度是12+1,須要14臺以上磁碟。RAID 6的Stripe寬度則從4+2到14+2,各自需要7至8臺磁碟,以及17臺以上磁碟。

為了提高可用性,系統還會透過演算法,將RAID Extent包含的Extent區塊,隨機散布在不同磁碟機上,避免RAID Extent包含同一臺磁碟機的2個DE區塊(避免單一磁碟機失效時,導致RAID Extent同時失去多個DE區塊,以致無法重建)。

建立了RAID Extent之後,系統將RAID Extent的空間指派給私有RAID群組(Private RAID Group),然後再以256 MB大小的切片(slice)為單位,在私有RAID群組中,建立供前端主機使用的LUN儲存區。

此外,系統還會盡可能使用多個RAID Extent的空間,來構成LUN,藉此將工作負載分散到多個RAID Extent底層的磁碟機上。也就是說,構成LUN儲存區的每一個256MB切片,實際上,是由分散在多個RAID Extent上的空間共同組成,而這些RAID Extent的空間,又是來自同一個磁碟合作群組的所有磁碟機提供,每個磁碟合作群組最多可包含64臺磁碟機。這意味著,每個LUN儲存區是由底層最多64臺磁碟機來共同構成,不僅分散了負載與寫入損耗,也提高了效能。

從底層磁碟機到提供給用戶端的LUN儲存區之間,Dynamic Pools區分為:Drive Extent、RAID Extent、私有RAID群組,一共有3個虛擬化區塊層級。

Dynamic Pools的擴展與保護機制

當需要擴充容量時,每次只將一臺磁碟機加入Dynamic Pools的儲存池中,系統會透過重新定位(Relocation)作業,將Extent與備用Extent區塊平均分散到新的磁碟機上,而這個作業較為耗用控制器資源,會影響提供給前端主機的I/O效能。

目前Dynamic Pools的系統保護機制分為2種類型,一種是主動複製(Proactive copy),另一種是磁碟重建(Drive Rebuild),分別適用不同情況。

Unity的OE作業系統會持續監控系統內含的所有磁碟機,當發現任一磁碟機出現的錯誤訊息超過系統設定限制時,儘管該磁碟機仍可存取,還是會啟動主動複製作業,將該磁碟機的資料,複製到同一磁碟合作群組中、其餘完好磁碟的備用空間Extent,再讓該磁碟機離線。此時的主動複製作業只是單純的複製,不涉及Parity運算,速度很快,系統也不會降級。

而磁碟重建則適用在磁碟機失效、無法存取的情況。當RAID Extent的任一Extent區塊失效時,系統便會將該RAID Extent降級,同時啟動重建作業,利用其餘Extent區塊保存的Parity資料,重建失效的Extent區塊資料,並寫入備用空間Extent,然後將重建後的備用空間Extent區塊加入RAID Extent,讓RAID Extent恢復正常狀態。

Dynamic Pools的相容性

Dynamic Pools可相容於Unity系列原有的所有軟體功能,包括各式進階資料服務,如同步與非同步遠端複製、靜態加密、FAST VP自動分層儲存等。

PowerStore系列的Dynamic Resiliency Engine

PowerStore系列的Dynamic Resiliency Engine(DRE)基本概念
DRE由最多25臺磁碟機組成彈性群組,群組中所有磁碟機空間會被切分為虛擬的Segment區段,然後以跨多臺磁碟機的Segment區段,組成具備RAID 5或6保護能力的Extent儲存區,再從中建立供前端主機使用的Volume儲存區。圖片來源/Dell

2020年登場的PowerStore系列不再支援傳統RAID架構,而全面採用分散式RAID架構:動態彈性引擎(Dynamic Resiliency Engine,DRE)。

基本上,DRE的運作原理與Unity系列的Dynamic Pools是相同的,都是以實體磁碟機空間的虛擬區塊化,結合備用空間的分散化為基礎。

以架構而言,DRE的基本運作單位是彈性群組(Resiliency Set),每個彈性群組由最多25臺磁碟機組成,磁碟機空間會切分為虛擬的區段(Segment),再將橫跨多臺磁碟機的Segment區段,組成具備Stripe與Parity保護機制的Extent儲存區,最後再從中建立供前端主機使用的Volume儲存區。

DRE最初只提供相當於RAID 5的單Parity組態,只能允許Extent儲存區中的1臺磁碟失效,而在PowerStore OS 2.0作業系統之後,新增支援相當於RAID 6的雙Parity組態,可容許儲存區中2臺磁碟同時失效。

DRE本身無傳統RAID的專用備用磁碟,備用空間散布在所有磁碟,每臺磁碟都保留部分Segment區段作為備用空間。而且,就每個彈性群組而言,會保留相當於1臺磁碟機容量的Segment區段,作為備份空間。

PowerMax系列採用的Flex RAID

PowerMax系列的Flex RAID基本概念
Flex RAID的運作以Flexible RAID Group群組為基礎,由散布在磁碟群組中的虛擬區塊,依不同RAID類型與Stripe寬度組成,備用空間也是散布在整個群組,由群組包含的所有磁碟來共同提供。圖片來源/Dell

今年5月Dell發表PowerMax系列新款機型8500與2500時,同步釋出新版作業系統,亦即PowerMax OS 10,當中增加了分散式RAID功能Flex RAID。

Flex RAID的基本運作單位是Flexible RAID Group,是由散布在磁碟群組(Disk Group)上的虛擬區塊,且依照用戶指定的RAID類型,以及Stripe寬度所組成。FlexRAID提供了RAID 1、5、6等3種層級,以及從4+1到12+2的多種Stripe寬度設定選項。

透過分散式架構,Flex RAID在擴充規模時,能夠每次新增一臺磁碟,大幅提高了擴充靈活性,而在擴充更多磁碟之後,系統只須重新平衡散布在各磁碟的虛擬區塊即可。也不需要專屬的備用磁碟,而是由所有磁碟共同提供備用空間,在資料重建時構成多磁碟對多磁碟的重建操作,藉此可大幅提高重建速度。Dell宣稱,Flex RAID重建1 TB資料只需10分鐘,重建1臺3.84 TB SSD資料只需38分鐘,較PowerMax先前使用的RAID架構提高50%以上。

一線儲存大廠逐步進入分散式RAID時代

隨著PowerMax系列2022年中引進了Flex RAID,Dell旗下的儲存陣列產品線,等於全都採用了分散式RAID架構。

其中,PowerStore系列的底層架構,更是一開始就基於分散式RAID而設計,至於其餘3個儲存系統產品線,也都預設以分散式RAID為主要的保護架構。

縱觀市面上其他的一線儲存系統大廠,華為同樣是全面採用分散式RAID,HPE、NetApp與IBM則是部分產品線採用。Hitachi Vantara則仍然停留在傳統RAID,較特別的是富士通,採用以傳統RAID結合分散式熱備用空間的架構,稱作RAID-6FR,也能夠加快重建速度,但效果仍不及分散式RAID。

 新世代高階儲存的嶄新RAID架構 
Infinidat InfiniRAID
透過精細的虛擬化區塊技術,結合龐大的重構磁碟群組規模,InfiniRAID可提供驚人的重建速度

InfiniRAID的基本架構 
InfiniRAID將底層硬碟儲存空間,畫分為64KB大小的資料區段(data section),將每16個資料區段組成14D+2P型式、等同於RAID 6的destage區段,InfiniRAID會把每個destage區段平均分散到磁碟櫃中16臺不同NL-SAS硬碟。系統可容忍2臺硬碟失效,若任一硬碟失效時,由磁碟群組中其餘所有磁碟共同參與重建作業。
圖片來源/Infinidat

由儲存業界大老Moshe Yanai創辦的Infinidat,在高階儲存陣列領域以獨特的產品架構著稱,旗下的高階儲存陣列產品InfiniBox,擁有業界罕見的3控制器Active-Active-Active架構,並率先提供高達7個9(99.99999%)的超高可用性,而最獨特的部分,是堅持不採用全快閃組態,而是利用大容量的DRAM快取與Flash快取記憶體,搭配Neural Caching神經快取演算法,底層僅使用7200轉NL-SAS硬碟,就能提供堪比全快閃儲存陣列的低延遲,以及高I/O效能。

而在RAID架構方面,InfiniBox也蘊含了創新,擁有自身專屬的分散式RAID架構InfiniRAID。底層儲存空間以採用粒度精細到64KB的資料區段(data section)來儲存資料(每個資料區段另含4KB metadata區段),再組成等同於RAID 6的14D+2P區段,由14個資料區塊+2個Parity區塊構成一組基本destage區段單元。

資料以Stripe的方式平均分散寫入InfiniRAID底層磁碟櫃的所有磁碟,無需指定Hot Spare硬碟,如果任一硬碟發生失效時,由底層所有硬碟(最多480臺)共同參與資料重建作業。

在相關技術執行效率上,Infinidat宣稱,InfiniRAID可提供業界最快重建速度,至於標榜數值有多種說法──最初是10分鐘就能重建6 TB資料,後來,提到15分鐘內重建8 TB資料,亦有15分鐘內重建2臺6 TB硬碟,以及15分鐘內重建2臺3TB硬碟等。

即使取其中最保守的數字,平均重建速度也超過每秒6 GB,若實際驗證後的結果也是如此,這確實是我們目前看過的分散式RAID重建速度最快的數據。

而且,要特別注意的是,InfiniBox底層是機械式硬碟,但藉由精細的虛擬化區塊技術,以及極為龐大的磁碟群組,能夠讓數百臺磁碟同時參與重建作業,進而獲得比許多全快閃儲存陣列快上許多的重建速度,充份證明InfiniRAID這種分散式RAID的效益。

InfiniRAID除了應用在InfiniBox,目前也陸續導入Infinidat其他產品線,包括InfiniSync、InfiniGuard等,作為旗下各產品線的通用基礎架構。

 相關報導  分散式RAID躍居主流儲存應用

熱門新聞

Advertisement