iThome

最近幾週以來,儲存業界兩大龍頭NetApp與EMC競相爭購重複資料刪除技術專業廠商Data Domain的相關新聞,成了儲存業界最熱門的消息。這除了顯示Data Domain的重複資料刪除技術備受業界肯定外,另一方面Data Domain應用重複資料刪除技術的主力產品類型—結合重複資料刪除功能的網路備份儲存伺服器,也成為業界仿效或爭取的一個典範。

越來越寬廣的重複資料刪除應用

經過3年多的發展後,重複資料刪除(Data De-duplication,De-Dupe)已從少數新創廠商投入的新興技術,轉變為各大儲存廠商產品線中不可或缺的一項功能。目前De-Dupe技術的應用主要有4種類型:

(1) 虛擬磁帶櫃(VTL),作為備份儲存媒體,利用De-Dupe技術抑制備份資料占用磁碟空間的增長。由於VTL產品一般都採用FC或iSCSI傳輸通道,架構上屬於SAN的應用。典型產品有EMC的D3D系列、IBM的ProtecTIER系列、HP的D2D與VLS系列、NetApp的NearStore VTL 系列、FalconStor的VTL-S與VTL-E系列,以及Quantum的DXi系列等設備。

(2) 網路儲存伺服器,即NAS,與VTL類似同樣也是作為備份儲存媒體,利用De-Dupe技術抑制備份資料占用磁碟空間的增長。不過這類產品是採用一般的CIFS/NFS等檔案傳輸協定,架構上屬於區域網路備份。典型的產品有Data Domain的DD與DDX系列、FalconStor的FDS,另外Quantum的DXi系列亦可提供這領域的應用。

(3) 作為網路加速設備的網路閘道器,利用De-Dupe技術縮減傳輸資料占用的網路頻寬,進而達到廣域網路加速的效果。典型產品有Riverbed的Steelhead、Cisco的WAAS、Juniper的WX/WXC系列等。

(4) 遠端備份軟體,利用安裝在Client端內含De-Dupe功能的備份代理程式,縮減網路傳輸的備份檔案資料量,實現跨廣域網路的大量備份資料傳送。典型產品有EMC的Avamar與Symantec的PureDisk等軟體。

目前這4種應用領域中,VTL類型是活躍的一類,投入的廠商與可選擇的最多,幾乎所有主要儲存廠商旗下都擁有內含De-Dupe功能的VTL產品;而網路閘道器類型的產品,雖然也有許多廠商投入,且這類產品用於縮減頻寬占用的資料壓縮技術,在原理上也與儲存設備的De-Dupe是相通的,但這類服務已脫離傳統儲存設備範疇,目前致力於這個領域的都是網路設備廠商。

具有De-Dupe的遠端備份軟體類型產品,目前廠商相對較少,且其他3類產品在適當的建構下,也能達到與這類產品相同的作用。

至於這次封面故事的主角—內含De-Dupe功能的網路備份儲存伺服器方面,投入的廠商雖然不多,但拜在這個領域經營最久的Data Domain之賜,實際裝機量反而是各類De-Dupe應用產品中最多的。據Data Domain宣稱,該公司用戶已累積超過1,200家。

VTL與備份專用NAS

具有De-Dupe功能的備份儲存伺服器,在應用上與VTL有許多相似之處,兩者同樣是針對備份應用的磁碟設備,可充作備份資料的儲存媒體,同樣也都是利用De-Dupe技術,來抑制備份資料占用磁碟空間的增長。但在底層架構、管理方式與部署類型上,這兩類產品存在著許多差異。

首先,在系統底層架構上,VTL是將磁碟空間模擬為磁帶格式來存放資料,在前端的用戶看來,VTL伺服器自身與其模擬的磁碟空間,就等同於真正的磁帶設備;而NAS則是以網路共享資料夾來提供存放空間,在前端用戶看來,這個空間是網路上的共享資料夾。

從傳輸通道來看,VTL是透過FC或iSCSI等儲存區域網路(SAN)協定,將模擬的磁帶設備掛載給備份伺服器使用,屬於SAN備份架構;而NAS的傳輸方式則是一般的CIFS、NFS等檔案傳輸協定,屬於檔案網路備份架構。

而從管理方式上來看,VTL在邏輯上完全等同於實體磁帶設備,管理時也同樣是採用磁帶設備的讀寫頭、磁帶匣、卷、條碼標籤等概念來運作;而NAS則是以檔案伺服器的檔案夾方式來管理。

整體而言,VTL類型產品的優勢,在於可透過磁帶模擬功能,方便的整合進已有磁帶設備的環境中,除了可替換實體磁帶設備,同時也便於與後端的實體磁帶設備整合運用。而且在適當的規畫下,可使SAN與環境中的LAN實體分離,備份時不會影響到LAN的運作。

但VTL的優點同時也是它的缺點:必須強制以磁帶的概念來使用磁碟設備,對於打算捨棄磁帶備份的用戶來說,VTL的磁帶模擬功能毫無意義,而且就像實體磁帶一樣,用戶只能透過備份軟體間接的驅動與使用VTL,無法直接檢視或存取VTL上的資料,且須透過SAN協定來與備份伺服器連接,用戶必須建置SAN環境,然而並非所有環境都適用於這種SAN備份架構,對於一些非核心應用、但仍有必要備份的Client端來說,採用SAN備份反而有許多不便。

而NAS類型De-Dupe儲存伺服器的優缺點則與VTL相反,透過CIFS/NFS傳輸協定以共享檔案夾方式存取的NAS,無論在存取的手段還是管理上都更為直覺與方便,理論上只要知道網路存取路徑,並擁有足夠權限,任何Client端都能存取資料,不一定要透過備份軟體的中介,適用於所有LAN環境,應用範圍比SAN架構更廣泛。

至於NAS類型產品的缺點,則是檔案系統長期使用之後,會有產生磁區碎片導致性能下降的問題,此外由於是利用既有的LAN執行傳輸,當備份進行時會占用頻寬,影響到LAN的其他工作。

 

 為什麼De-Dupe網路儲存伺服器僅供備份使用?

由於重複資料刪除演算會對每一份存入的資料,產生相對應的Metadata,對於經由備份軟體處理後的大型備份檔案,這些Metadata相對應的容量都很小,不會造成什麼影響。

但若在De-Dupe NAS的共享區域中存入細碎的小檔案,則每一份小檔案產生的Metadata大小甚至會超過檔案本身容量,累積的Metadata容量也會隨之增大,以致不但不能發揮「刪除冗餘」效果,反而消耗掉的總容量還會大大增加。

以我們去年11月對Quantum DXi3500的測試為例,如果是以備份軟體將3500多個檔案轉成一個特定格式的5GB備份檔案,存入DXi3500的共享檔案夾中。結果發現DXi3500確實能發揮刪除重複的效果,存入後只消耗了不到4GB空間,也就是刪除了整整1GB冗餘資料。但若改成直接存入5個18MB的小檔案,則DXi3500所消耗的總容量反而膨脹到269MB,比檔案原始容量總和還大2.5倍。

所以在使用這些具備De-Dupe功能的NAS時,理想的方式是關閉重複資料刪除功能,當成純粹的檔案存取區域使用(如果可關閉的話);或者是啟動重複資料刪除功能,但禁止像普通NAS般存入零碎檔案,限定只能透過備份軟體存取,當成純粹的備份專用存取區域。

 

 當前應用重複資料刪除技術的4種面向 

重複資料刪除技術是一種可結合不同面向產品使用的功能,目前主要有4種應用方向,分別為VTL,網路儲存伺服器,WAN加速設備與遠端備份。當前市場上投入廠商最多的產品是VTL類型,但近來NAS類型產品也開始有更多廠商加入。

 

De-Dupe網路儲存伺服器主要供應商

談到具有De-Dupe功能的NAS設備,最具代表性、也是當前市場上最重要的廠商,便是前面提到過的Data Domain。該公司在這個領域經營時間最久、產品裝機量最大,技術也相對最成熟,至今已推出4代產品,目前市場上銷售的為DD500、DD600與DDX系列。

Data Domain的產品分為3種類型,即內含磁碟的整合式儲存伺服器DD系列、多節點陣列架構的DDX系列,以及可用於搭配既有磁碟陣列的DD690g閘道器。除了標準的檔案共享存取功能外,Data Domain的產品也能提供VTL功能,以支援FC SAN環境的連接。

第二個提供這類產品的廠商是Quantum,旗下擁有兼具VTL與NAS功能的DXi系列儲存伺服器。Quantum產品的型態與Data Domain恰好相反,Data Domain產品功能則以NAS為主,VTL僅為選購的輔助功能,且VTL功能的磁帶模擬能力也很有限(只能模擬LTO-1/2/3),並只能採用FC通道。

而Quantum DXi系列的VTL功能要比Data Domain更專業,可模擬10種上帶機與磁帶櫃以及LTO、SDLT等7種磁帶規格,並能支援iSCSI或FC通道,但NAS模式功能相對就沒Data Domain那麼豐富。

DXi系列目前有2500-D、3500、7500 Enterprise與7500 Express等4款(稍早還有一款5500已被7500 Express取代)。其中2500-D、3500與7500 Express等三款都是內含硬碟的單一整合伺服器,差別只在於處理器等級、硬碟數量與機箱尺寸(1U、2U與5U),大致是對應Data Domain的DD系列儲存伺服器,7500 Enterprise則採控制器與儲存裝置分離架構,擴充性更大。

值得一提的是,除了Quantum自身以外,EMC與Dell也都OEM了DXi系列產品,如EMC的D3D即為DXi 7500的OEM版。

繼Data Domain與Quantum後,FalconStor也在今年推出了具備De-Dupe功能的NAS產品,稱為File-interface Deduplication System(FDS)。FDS的定位較接近Data Domain的DD系列,但只提供NAS存取功能,而不支援VTL功能(FalconStor另外有支援De-Dupe的VTL產品線)。

目前FDS有內含硬碟的3U單一儲存伺服器、2U應用伺服器搭配3U磁碟陣列的組合,以及可外接既有磁碟陣列的2U閘道器等3種產品型態;前兩款主要是對應Data Domain的DD系列,最後一款則是對應DD690g閘道器。

另外需要特別注意的是,NetApp的Data ONTAP作業系統7.2.2版以後,也增加了該公司稱為先進單實例儲存(Advanced-Single Instance Storage,A-SIS)的De-Dupe指令,因此任何執行前述OS的NetApp FAS線上儲存系統與NearStore近線儲存系統,也能藉此得到De-Dupe功能。不過NetApp強調A-SIS是一種供線上儲存設備使用的De-Dupe技術,且執行時是以Volume為單位,與這次封面故事討論的專供網路備份用途的儲存伺服器定位有所差異,故此處不討論NetApp產品。

另外Dell剛推出的PowerVault DL2100– Powered by CommVault也是與這類設備相當接近,但又有本質差異的產品。Dell這款產品內建了CommVault的Simpana備份軟體,由於新版的Simpana提供了De-Dupe功能,因此Dell這款儲存伺服器也就具備了De-Dupe能力。

不過CommVault Simpana的De-Dupe採用主機端架構,也就是由安裝在Client端的備份代理程式執行De-Dupe,而不是後端的PowerVault DL2100。所以只有安裝了CommVault代理程式並啟用De-Dupe的Client端,才能得到De-Dupe效果。所以Dell這套產品只能稱作De-Dupe解決方案,但伺服器本身卻不適合稱作De-Dupe伺服器。

相對的,Data Domain、Quantum與FalconStor的產品都是由儲存伺服器本身來提供De-Dupe,任何寫入到伺服器上的資料都能進行De-Dupe處理,這才是定義上「貨真價實」的「De-Dupe儲存伺服器」。

De-Dupe網路儲存伺服器特性分析

Data Domain、Quantum與FalconStor的De-Dupe網路儲存伺服器的產品定位與用途非常近似,以下我們就De-Dupe技術、系統可靠性與進階功能等3個面向分別討論。

De-Dupe技術類型

Data Domain的產品是典型的線上處理(in-line)類型De-Dupe模式,當前端資料被讀入儲存伺服器的系統記憶體、尚未寫入磁碟時,便執行重複資料刪除分析演算,因此寫入磁碟的資料都是已去除重複的,需要的磁碟空間比原始檔案小很多。不過由於必須在寫入磁碟前就完成De-Dupe分析演算處理,所以系統De-Dupe的處理能力高低,便會影響到整個備份作業的速度,有拖慢備份窗口的疑慮。

FalconStor產品則採後處理(post-Process)架構,也就是資料寫入磁碟後,再按排程啟動執行De-Dupe處理。這種架構的缺點,是一開始被寫入磁碟的資料都未經過De-Dupe,和原始檔案一樣大,所以系統必須預留一塊較大的磁碟區,作為執行De-Dupe前的緩衝區。另一個缺點是萬一寫進的資料量非常大,則系統在資料寫入後可能需要很長的時間才能完成De-Dupe處理,以致會妨礙後續作業的執行。

不過後處理架構亦有其優勢。由於De-Dupe作業是在資料寫入磁碟後再按排程啟動,所以系統在寫入備份資料時,可充份發揮硬體與磁碟效能來接收資料,不像線上處理架構那樣會受到De-Dupe作業的干擾,故擁有更高的備份資料寫入速度。

為解決單純的線上處理或後處理模式的問題,FalconStor與Quantum都提供了不同模式轉換功能。如FalconStor FDS在後處理模式外,還提供一種類似線上處理的「同時處理(Concurrent Process)」模式,把一塊特定的磁碟區當作緩衝區,來源資料被寫進這個區域進行De-Dupe處理後,就會再讀出寫進正式的De-Dupe存放區。

而Quantum Dxi系列中的低階機型(2500-D與3500)採用變形的後處理架構,在VTL模式下,系統預設資料寫入後30秒才開始De-Dupe演算,而NAS模式則為60秒。而高階的Dxi7500系列,則可視需要選擇Adaptive Mode或Deferred Mode,前者即為線上處理模式,後者則為後處理模式。

系統可靠性

對於De-Dupe網路儲存伺服器來說,系統的可靠性是一個「性命攸關」的問題,由於所有寫入的資料,都已經過各廠商的De-Dupe技術分割、演算處理過,一旦發生無法回復的磁碟損毀,或是系統故障時,用戶便再也無法取回原始資料。因此這類產品都提供了多重防護機制,以避免發生這種情況。

在系統本身的保護方面,Data Domain與FalconStor都限定使用RAID 6保護,可允許最多兩臺硬碟損毀,而Quantum的產品則可選擇RAID 5或6。而針對整套系統的保護,三家廠商都能提供選購的遠端複製功能,可將資料傳送到遠端另一臺儲存伺服器作為備援。

而在高可用性方面,三家廠商的產品都提供硬碟、電源供應器的熱插拔與熱備援功能,在故障發生時可維持系統繼續運作,並迅速的更換故障元件。

進階功能

提供備份用的共享網路檔案夾,是De-Dupe網路儲存伺服器的基本功能,在此之外,各廠商也分別為他們的產品提供了額外的附加功能。

其中Data Domain與Quantum都為他們的產品提供VTL功能,成為兼具VTL與NAS雙重用途產品,不過Quantum的VTL功能為內建,而Data Domain的VTL功能則為選購。至於遠端複製則是三家廠商都提供的選購功能,此外某些廠商還提供了一些獨特的進階功能,如FalconStor的主機式備份(Hosted Backup)等。

從產品實測看De-Dupe產品趨勢

我們這次測試了Data Domain的DD510與FalconStor FDS兩款產品,搭配去年12月測試的Quantum DXi3500加以比較。從測試結果可看出幾個趨勢。

各廠商空間節省效率已經趨同

在我們前年(2007年8月)首次關於De-Dupe產品的實測報導中,不同廠商產品表現出來的空間節省效果有很大區別。但經過兩年的發展後,各廠商De-Dupe技術在空間節省能力方面已經非常接近,彼此相差只有5%上下,原來的領先者已逐漸被其他廠商追上。

De-Dupe處理速度將成為日後競爭重點

由於各廠商De-Dupe技術的空間節省效果已逐漸趨同,顯示這方面繼續做文章的餘地已經不大,因此接下來的發展,應該會轉而朝向提高處理速度方面發展。

會考慮引進De-Dupe產品的企業,一般都是手上擁有極大量的資料需要備份,所以才會試圖藉由De-Dupe技術來縮減資料占用空間,從而達到降低儲存成本的目的。但節省空間是一回事,處理速度又是另一回事,若某種De-Dupe技術能提供相當可觀的空間節省效果,但演算處理卻需耗費非常長的時間,則備份窗口將會因此拉長,反而給備份作業帶來負面影響。

所以接下來De-Dupe產品的需求,便是既要提供良好的節省空間效果,又要兼顧夠快的De-Dupe處理速度。

而談到處理速度,顯然後處理類型的De-Dupe技術,要比線上即時處理類型占不少便宜。依據Quantum提供的資料,在硬體相同時,後處理模式的備份速度可比線上處理快70%左右。

為了加快速度,最直接的作法便是依環境需求購買更高階的De-Dupe儲存伺服器,藉由速度更快的硬體與磁碟設備來加快整體處理速度。

另一個變通的方法是安裝多臺De-Dupe儲存伺服器,並妥善的切割備份環境中的備份工作,將不同Client端的備份作業導入到後端多臺De-Dupe儲存伺服器上,藉由多臺伺服器分攤備份作業,達到提高處理速度的目的。類似的作法是採用類似Data Domain DDX這類多節點陣列架構產品,利用多個節點平行處理來提高速度。

至於FalconStor的「主機式備份」架構,則為改善備份速度提供了一個新方法。所謂主機式備份就是讓De-Dupe儲存伺服器兼任備份伺服器的角色,因此在整個備份架構中,便可省略獨立的備份伺服器這個環節,Client端的資料可直接送到兼任備份伺服器的De-Dupe儲存伺服器上,故整個備份資料流的速度便能有所提高。不過這種架構的限制是只能採用Linux版備份軟體,若用戶原先採用其他備份軟體,則須更換備份軟體才能支援。

 

 3款De-Dupe儲存伺服器空間節省效果比較 

測試短評

由測試數據可以發現, 3 款產品的節省空間效果十分接近,彼此相差只有5%上下,5次備份後都能比未執行De-Dupe的每次全備份節省85%以上容量。這個結果顯示各廠商De-Dupe引擎的空間節省效率已大致趨同,接下來各廠商的技術發展趨勢,應會往提高處理速度方面著手,而不是繼續在空間節省方面做文章。

測試方法

備份測試基底為5GB的樣本檔案,每次備份均新增5%(即250MB)資料,且每次備份均執行基底檔案+新增檔案的全備份。新增資料均為與已有資料完全不同的新資料,驗證各產品重複資料刪除功能在5%資料新增率環境下的節省容量效果。

備份測試使用的備份軟體為Symantec NetBackup 6.5,傳輸通道為執行CIFS的GbE網路。

樣本檔案結構組成

基底為一份5GB檔案集,共含3506個檔案,其中文件類檔案(含DOC、PDF、XLS與TXT等4種格式)占總容量60%,圖形類檔案(含JPEG與BMP等2種格式)占總容量40%。

後續4 次備份使用的資料為4 份250MB 的新增檔案,這些檔案與基底檔案集中的檔案均不同,文件類與圖形類各占總容量的60 與40%,其中第一份含518 個檔案,第二份含685 個檔案,第三份含225個檔案,第四份含330個檔案。

註:Quantum DXi3500測試數據取自2008年12月採用NAS模式的實測結果。

 

 重複資料刪除技術應用新領域——傳統備份軟體 

除了VTL、網路備份儲存伺服器、廣域網路加速設備與遠端備份等四種典型De-Dupe應用領域外,從今年初以來,也有幾款傳統備份軟體陸續提供了De-Dupe功能的支援。

雖然先前已有支援De-Dupe功能的備份軟體問世,如EMC Avamar與Symantec PureDisk等,但這幾款備份軟體都是主打跨廣域網路的遠端備份,一般只有具備遠端備份需求的用戶會考慮這類產品。而近來新增De-Dupe功能的備份軟體,如CA的ARCServe Backup r12.5、CommVault Simpana 8,則是傳統的以本地端區域網路備份應用為主,幾乎任何環境都有使用需求。

透過備份軟體的De-Dupe解決方案,有兩個其他類型解決方案無法提供的優勢:

(1) 用戶只要引進或升級新版備份軟體,就能利用既有的硬體設備得到De-Dupe的效果,無需額外購買昂貴的De-Dupe專用硬體。

(2) 備份與De-Dupe的管理合為一體,管理上比起另外建置的De-Dupe專用硬體要更方便。

 

 徹底比較VTL與備份專用NAS的異同 

 

 11款De-Dupe網路備份儲存伺服器規格一覽表 

 

【相關報導請參考「重複資料刪除從VTL走向備份專用NAS」】

熱門新聞

Advertisement