iThome

分層儲存概念由來已久,可在不同等級儲存設備間自動搬移資料階層式儲存管理(Hierarchical Storage Management)產品,問世亦有十多年時間。

早期的HSM產品多半採用獨立部署的軟體形式,而且是以面對應用程式的方式運作。後來Compellent、3PAR等廠商則推出了整合在磁碟陣列控制器中的自動分層儲存功能,可作為儲存設備底層的基礎服務,免除另外安裝軟體的需要,還能提供更精細的管理功能。

近年來隨著高性能固態儲存裝置(SSD)的發展,進一步推動了自動分層儲存技術的需求,就連儲存界龍頭廠商EMC,亦在不久前推出了可適用於旗下主力儲存產品線的FAST全自動分層儲存技術,讓自動分層儲存技術走出過去僅針對特定領域、或新創公司產品的局面,開始進入主流廠商產品線中。

目的是兼顧效能與成本

階層式儲存管理的目的,是利用不同效能/價格的儲存設備組成儲存系統,藉以分別適應前端不同應用的需求,讓關鍵應用使用高效能儲存裝置,非關鍵應用則使用效能較低但也較廉價的儲存裝置,以便在控制儲存成本的同時,又能確保關鍵應用可獲得必要的效能。

顯然的,要讓階層式儲存管理發生效用,關鍵在於如何為前端不同需求的應用,適當地分配由不同層級儲存設備提供的空間,特別是必須因應前端存取行為的變化,持續調整後端儲存空間配置,以便讓儲存空間利用效率,始終維持在一定的水準上。

分層儲存技術的類型

前述目的的實現,牽涉到三個基本程序:首先是儲存裝置的分層。傳統上通常依磁碟效能將系統分為三層:

第1層:效能最高、但單位容量價格也最高的1.5萬FC或SAS介面轉硬碟。

第2層:效能與單位容量價格中等的1萬轉FC或SAS介面硬碟。

第3層:效能最低、但單位容量價格也便宜的7,200轉SATA介面硬碟。

近來隨著固態硬碟的逐漸普及,也改變了傳統的儲存分層區分,由固態硬碟取代1.5萬轉硬碟的第1層地位,或是增加一個效能更高的第0層。

其次,資料先以預設配置分布在不同層級的儲存裝置上,接下來必須對前端存取行為進行持續的追蹤與記錄。

最後,便可依照追蹤與統計結果,定期執行資料搬移工作,將存取頻率高的資料搬移到由高效能儲存裝置組成的磁碟區,存取頻率低的資料則搬移到較低效能儲存裝置組成的磁碟區。

如此可限制系統耗用的高階儲存裝置容量,讓高階儲存裝置只用於存放高存取頻率的資料,而將大部份資料都存放在低價設備上,讓磁碟配置達到效能與成本最佳化。

前述工作可以人工執行,不過若涉及大型、複雜環境的管理,更好的做法是交由可按預設政策自動執行的系統來執行,藉以達到「全自動化分層儲存」。

自動化分層儲存基本上是兩個功能的綜合——資料存取行為的追蹤統計,以及定期的資料搬移。而依追蹤統計與資料搬移所針對的標的不同,又可分為以檔案為基礎、以區塊為基礎等兩種類型,前者是應用在NAS領域,後者則是應用在儲存區域網路領域,依執行的統計追蹤與資料搬移的單位粒度,又可分為區塊或Volume兩種類型。

粒度越小越有利

一般說來,系統執行存取行為分析與資料搬移時,採用越小的粒度越有利,以幾百KB為單位的區塊來執行搬移作業,顯然比以數GB為單位的Volume或LUN,或以可能大到數百MB的檔案為單位更為理想,不僅消耗的資源較少,也能達到更高的儲存資源配置效率。

也就是說,在一個數GB的Volume或數百MB的檔案中,經常被存取的大都只是其中一小部分區塊(而非整個Volume或整份檔案),因此在執行資料分層遷移作業時,若系統能以更小的區塊作為單位,便能將真正經常存取的那些區塊保留在高效能儲存區域上,其餘部分則遷移到低價的儲存區域保存。比起遷移整個Volume或整份檔案,在區塊層級上運作的系統,將更能發揮儲存空間的效益,牽涉到的資料搬移量也較小,可限制對系統運作造成的衝擊。

當然自動分層儲存也不是毫無代價。由於追蹤所有儲存區域或資料的存取行為,是執行自動化分層儲存的基礎,為了追蹤的需要,導致必須為資料區塊或檔案,附加上額外的metadata或標記,這除了會耗損實際可用容量外,也會增加控制器的負擔。而且若運作的粒度越小,則相對應須追蹤的metadata數量也越多,相對也更增加控制器的負荷。

另外資料搬移動作也相當消耗磁碟資源,因此妥當設定資料遷移政策,也成為實際部署自動分層儲存技術非常重要的環節,除了必須避開系統尖峰時間外,執行排程的設定也有許多需要考量之處—若資料搬移作業時程間隔過長,顯然無法讓儲存空間配置持續維持在最佳效率的組態上:但若資料搬移作業太過頻繁,又有影響正常存取的疑慮。

現有的自動化分層儲存產品

幾乎所有主要儲存廠商都有分層儲存管理產品,或是基於類似概念的資訊生命週期管理(Information Lifecycle Managerment,ILM)解決方案,不過能在磁碟系統底層做到「自動化」分層儲存的廠商並不多。

過去致力於自動化分層儲存技術領域的多半是新創廠商,如Compellent、BlueArc與剛被HP併購的3PAR等,在這方面都已有4、5年以上的經驗。

在固態硬碟應用的刺激下,儲存界的龍頭EMC也投入了自動分層儲存技術領域,在2009年底發表了稱為全自動儲存分層(Fully Automated Storage Tiering,FAST)的技術,讓這項新興技術走近主流廠商的一線產品之中。

接下來,我們便來逐一檢視各廠商既有的自動化分層儲存技術特色所在:

3PAR

剛被HP併購的3PAR,早在2005年就推出了稱為「動態最佳化(Dynamic Optimization)」的自動分層技術,適用於3PAR的InServ系列儲存伺服器,可依存取負載在不同層級的儲存裝置間,搬移整個Volume,藉以平衡實體磁碟機的負載,確保存取效能。

不過Dynamic Optimization還未達到完全的自動化,必須另外搭配3PAR的Policy Advisor軟體,才能提供按政策驅動的自動化功能。

3PAR後來又在2010年3月推出了稱為「自適應最佳化(Adaptive Optimization)」的新一代自動分層技術,適用於該公司的Inserv F系列與T系列儲存伺服器。

與上一代的Dynamic Optimization相比,Adaptive Optimization最大特色是以比Volume更小的單位Sub-Volume,作為分層搬移單位。3PAR並未清楚說明所謂Sub-Volume的涵義,或許與該公司所採用的標準儲存單位chunklet有關——3PAR儲存系統會將實體磁碟,分割為多個265MB大小的chunklet,再由多個chunklets組成需要的邏輯磁碟RAIDlet。

在Adaptive Optimization技術下,一個Volume的區塊可散布在不同層級的實體儲存設備上,系統會依存取行為,自動將高存取頻率的Sub-Volume搬移到高速裝置上,低存取頻率的Sub-Volume則搬移到低速裝置上。

另外Adaptive Optimization自身也提供了自動分析與按政策自動驅動等功能,不像Dynamic Optimization還需要透過Policy Advisor軟體的輔助。

BlueArc

身為專業NAS廠商的BlueArc,所推出的自動分層技術,理所當然的是以檔案為基礎的架構。BlueArc可利用整合在NAS中的資料遷移(Data Migration)功能,達到自動分層儲存的目的。

管理者可以手動方式執行資料遷移,也可利用Data Migration功能設定自動遷移。Data Migration提供了多種政策設定選項,可以多種預設條件來自動啟動檔案遷移工作,如檔案所處目錄、有多長時間未經存取、檔案名稱、類型、大小、最後一次存取時間等,同時也能混用多種啟動條件。管理者可為不同目錄的檔案分別設定遷移政策,當到達啟動條件時,系統就會自動執行遷移作業。

Compellent

Compellent是自動分層儲存技術的先驅,他們早在2005年就發表了稱為Data Progression的自動分層儲存技術,可以適用於該公司旗下的Storage Center系列產品。

Data Progression技術是基於該公司儲存系統獨特的動態區塊(Dynamic Block)架構,系統是以4096個512KB區塊組成的2MB Page Pool為基本儲存單位(預設值),所有實體磁碟都會被分解為這樣的Page Pool,然後再利用散布在所有實體磁碟機上的Page Pool,組成不同層級的RAID與Volume。
動態區塊技術會記錄關於每個儲存區塊的建立/存取/修改時間、存取頻率,以及所處的RAID與硬碟層級等metadata資訊。而且Compellent 磁碟陣列控制器的Compellent Storage Center軟體,也會將控制器所管理的硬碟,自動依效能區分為三個層級。

當使用者建立Volume時,可選擇該Volume所欲使用的RAID與磁碟層級。若使用者選擇讓該Volume同時使用跨不同效能層級的實體硬碟的容量,接下來系統將會定期檢視每個區塊的存取頻率,並視存取頻率自動將區塊搬移到適當的硬碟層級,藉此改善磁碟使用效率。

此外,Data Progression技術也整合了快照功能的使用,可自動將快照複本挪到較低的磁碟層級中存放,減少對高價、高效能儲存空間的占用。

Data Progression技術不僅能在不同儲存硬體層間實現資料自動分層,還可在同一儲存硬體層間執行遷移,如在同樣的1.5萬轉FC硬碟層中,可將資料從RAID 10組態的磁碟區遷移到單位成本較低的RAID 5上。更特別的是能針對單一硬碟執行存取最佳化—可將較常存取的資料自動遷移到硬碟最外軌上,藉以減少搜尋時間。

EMC

自2009年底以來,EMC在短短半年多時間內,就發表了兩代的FAST自動分層儲存技術。

2009年底發表的FAST 1是一種以Volume為基礎的自動遷移功能,適用於EMC的CLARiiON、Symmetrix和Celerra系列儲存產品,三款產品上的FAST作業執行細節稍有差異,不過基本運作機制是相同的。

以Symmetrix VMAX為例,管理者可透過FAST功能設定不同層級儲存硬體在每個儲存群組中所占的比例上限、執行系統存取行為統計的時間、允許執行資料遷移的時間區段等參數。當到達管理者設定的時間時,FAST即會自動啟動存取行為分析與資料遷移作業。

磁碟遷移是利用鏡像或置換(Swap)來進行,前者適用於有足夠閒置空間時,後者用於閒置空間不足時。

由於FAST 1採用搬移整個Volume的方式相當耗費資源,所以FAST 1設有每日允許遷移多少磁碟區、一次可同時遷移多少磁碟區,以及允許執行遷移動作的時間區段等限制設定,以免遷移作業影響到正常的存取。

儘管有這些調整設定,但FAST 1充其量也只相當於其他廠商數年前的技術,只能在Volume或LUN的層級上運作(最小是1GB),不僅資料遷移耗費的資源過大,能達到的成本節省與效能提升效果也較為有限。

針對第一代FAST的缺點,EMC在2010年5月的EMC World 2010大會上公布了第二代的FAST,並可與該公司新的Unisphere通用管理軟體整合,目前的版本可支援CLARiiON與Celerra系列。

FAST 2最大特色是可以在區塊層級上運作,粒度比FAST 1更小(據說小於1MB),空間配置效率更高,但相對應的控制器負荷也更大,據稱必須是較新款CLARiiON與Celerra的處理器,才能支援FAST 2。

持續發展的自動分層儲存

除了前面介紹的廠商外,IBM也聲稱能提供自動分層儲存技術,但尚未公布技術細節。就目前來看,Compellent在這個領域居於領先的位置,不僅最早推出區塊層級的Data Progression自動分層技術,所採用的粒度也是目前同類技術中最細密的(最小512KB),不過3PAR與EMC等廠商也都在最近,推出了類似的區塊層級自動分層儲存技術,逐漸追上Compellent的腳步,但Compellent仍有一些其他廠商尚不具備的獨特功能。

然而,有少數廠商並不贊同自動分層儲存技術,認為只要在系統中加入少量作為高速緩衝區的固態硬碟,即可改善效能。但若只有「寫入SSD高速緩衝區」與「未寫入SSD緩衝區、留在一般磁碟」兩個應用層級,顯然不足以充分因應實際環境複雜的存取行為。

考慮到固態硬碟、1.5萬轉FC或SAS硬碟與SATA硬碟等不同層級儲存裝置間巨大的成本差異,無論如何分層儲存都是必要的。然而實務中最困難的問題,在於如何決定不同資料適合存放的儲存裝置類型,而且還須隨著儲存行為的持續變化,動態調節儲存資源的配置。

再考慮到企業儲存環境的複雜性,管理者面對的是由數十個、上百個或更多Volume組成的環境,任何非自動化的分層儲存管理,在實務上都是難以執行的,唯一的選擇就只有自動化分層儲存。因此未來這項技術可望逐漸得到普及,進而成為企業級儲存系統不可或缺的基本功能之一。

 

3種自動分層儲存技術

看大圖

 

既有自動分層儲存技術概覽

看大圖

 

熱門新聞

Advertisement