節省10～20倍儲存空間的重複資料刪除技術

隨著分層儲存（Tiered storage）應用的日漸普及，透過區分資料類型並分別存儲在不同的媒體上，已成為當前企業提高備份效率、降低儲存成本的主要做法。典型的應用就是磁碟到磁碟再到磁帶（D2D2T）的三層架構，透過中介的低價SATA磁碟，作為前端高速但價昂的FC、SCSI硬碟，以及後端價廉但速度慢的磁帶間的緩衝，以兼收速度與降低成本的效益。

但業界在實際的D2D2T應用中發現，由於經常性的檢索與快速還原資料的需求，中介緩衝的硬碟容量需求直線升高。在早期的應用中，從線上搬移到中介緩衝硬碟的資料，一般只會停留一周的時間，很快就會被轉存到後端的磁帶上。但現在的用戶卻經常讓資料存放在中介緩衝硬碟上達數周甚至數月之久，使得中介緩衝硬碟的容量需求大增。

雖然SATA硬碟的價格不斷降低，但是單位成本仍比磁帶高出許多。面對日趨膨脹的資料量，如果用戶堅持將大量資料存放在硬碟上達數周之久，無限制的添購硬碟顯然不是現合理的做法，高昂的儲存成本肯定會讓企業難以承受。因此以縮減資料容量、減少磁碟儲存容量需求為的重複資料刪除（Data De-duplication）技術也就應運而生。

解析資料刪除技術

重複資料刪除技術的關鍵在於如何透過對掃描磁碟資料，判斷資料是否為「重複」或「冗餘」，各家廠商在實作細節上雖有不同，但原理大致上都是對寫入硬碟的資料以演算法（例如Hash）切割分段處理，分段的單位可以是區塊（Block）或是區段（Segment），並為每一個分割單位求出一個特徵值...繼續閱讀

技術領導者：小型新創企業

重複資料刪除技術是一項新興技術，目前這個領域的開路先鋒多半是小型的新創企業，如Asigra、Avamar、Data Domain、與Rocksoft等，大廠方面則有ADIC、Symantec與微軟等。依產品針對的應用範圍不同，可分為純軟體與應用程式伺服器兩類......繼續閱讀透過特殊演算法去除資料中的冗餘
重複資料刪除技術依廠商的不同而有不同的名稱，包括單實例存儲（Single-Instance Storage）、共同性分解（Commonality Factoring）、全域壓縮（Global Compression）、容量最佳化（Capacity Optimization）或資料合併（Data Coalescence）等稱呼，不過目的與原理都是相同的。

重複資料刪除技術的關鍵在於如何透過對掃描磁碟資料，判斷資料是否為「重複」或「冗餘」，各家廠商在實作細節上雖有不同，但原理大致上都是對寫入硬碟的資料以演算法（例如Hash）切割分段處理，分段的單位可以是區塊（Block）或是區段（Segment），並為每一個分割單位求出一個特徵值，特徵值是利用演算法得出的一個很小、但是又可以代表此區塊的資料，如同每個人的指紋可以用來代表一個人一樣，也叫做訊息摘要（message digest）或數位指紋等（digital fingerprint）。

所有後續資料在寫入硬碟時也都會先經由演算法的處理，並得出特徵值，接下來系統就可比對硬碟中已有資料的特徵值與新寫入資料的特徵值，若發現特徵值相同，則系統就會知道硬碟上已有一個相同的副本，這筆新資料即為「重複」，那新資料將只會存入一個指向已有副本位址的指標，而不會重複儲存，只會為這筆資料留下一個索引，標註指向硬碟上已有的那份副本，而不會實際寫入硬碟。只有特徵值不同的資料才會被實際寫入硬碟。

而這些演算與寫入程序是不對外透通的，就外部的作業系統與應用程式看來，資料的存取仍與平時完全相同，當使用者要讀取那些被判定為重複的資料時，系統就會透過之前建立的索引把資料取出。
也就是說，原來的完整資料經重複資料刪除技術後，被化為許多個完全是唯一（unique）、不重複的資料區塊，以及紀錄原始資料結構與指向的索引，這個「多個唯一、不重複的資料區塊」加上「紀錄原始資料結構與指向的索引」，對作業系統與應用程式看來是等同於原始的完整資料，只要反向運作就能得回原來型態的資料。

重複資料刪除技術的三大類型
依處理流程、運作架構以及對原始資料進行分段方式的不同，重複資料刪除技術有以下幾種不同的區分：

1.in-band與out-of-band
依處理流程可分為即時的in-band與非即時的out-of-band兩類。in-band的系統是在資料寫入磁碟之前作重複資料刪除演算與處理；而out-of-band則是在資料已經寫入磁碟後，再作重複資料刪除演算處理。兩種處理方式的優缺點正好相反，in-band的方式對磁碟存取的效能影響較大，系統的性能會有所降低。而out-of-band雖不會影響到即時的存取效能，但由於資料一開始寫入磁碟時仍完全未經處理，需佔用與原始資料相同大小的空間，要等到寫入完畢、經重複資料刪除演算處理後才會縮減容量，因此對磁碟容量的需求較高。所以in-band與out of band也就是一個效能與儲存容量間的選擇。不過為追求容量縮減的效果，絕大多數的產品都是採用in-band的方式作業。

2.前端代理程式與後端專屬硬體
而就架構上而言，重複資料刪除技術有在前端透過代理程式執行，與在後端透過專屬設備執行兩類。前者即是在前端的個人電腦或伺服器上安裝代理程式，透過代理程式來對個人電腦或伺服器上指定的資料區域進行分割演算與去除冗餘資料的處理，然後再送到遠端伺服器上備份。需要取回資料時再反向運作，重新組回原始資料的型態，如Avamar、ADIC、Asigra、Symantec等公司都是採用這種做法。採這種方式的多半是純軟體類產品，對系統的需求較高、部署上比較麻煩，而且代理程式會影響到前端各系統的效能。不過由於資料在前端系統上就已經過重複資料刪除處理，只有新產生的不同資料才會傳往後端，所以需要的網路頻寬很小。

另一類就是完全不對前端系統作動作，把所有的重複資料刪除演算都放到後端的一臺專屬設備上處理，也就是把這臺專屬設備當作一個儲存裝置，前端的資料儲存再指向這臺設備，當資料送到這臺設備上準備寫入硬碟時，才由這臺設備進行重複資料刪除處理。顯然的，這種架構把演算處理的負擔丟給後端的專屬設備，因此對前端系統不會造成任何負荷，不過也由於重複資料刪除處理是在後端，所以前端的資料在從網路送往後端時，仍是以原始的型態與大小傳送，網路負荷相對會比前一種方式大許多。屬於這類架構的產品有Data Domain的COS系列儲存伺服器產品，以及Diligent的虛擬磁帶櫃等。

另外這種後端處理也有其他的優點，因為所有的資料搬移動作都是透過第三方備份或複製軟體來進行，因此這類產品可以迴避與資料庫間的溝通問題，只要備份軟體能支援資料庫，那這類產品也能用於資料庫備份，不像代理程式類產品必需考慮與資料庫間的驗證問題。

3.資料分段切割方式與大小
目前重複資料刪除技術的演算法在切割資料、進行分段求解特徵時的做法有兩類，一類是以區塊（Block）為單位來切割，如Avamar的Axion是將資料切為平均12KB大小的區塊，再分別為每個區塊計算並分派1個20byte的特徵值（或是稱為固定位址）。另一類則是以區段（Segment）為基礎，如Data Domain的COS是將資料以Byte為單位為分解成4～16KB的區段（平均8KB），再進行處理。

系統是採用區塊還是區段等級的處理沒有一定的好壞，不過資料分割的片段大小會有比較大的影響。同樣大小的資料若切成較小的片段，意味著系統需要產生並存放更多的特徵值以及索引，將會延緩備份的時間；但若切成較小的片段，則系統也能對資料內容進行更精細的比對，通常可以得到更高的壓縮比率。目前多數產品的分段大小都是可調的，系統會嘗試以多種分段大小來切割資料，以求得到更好的資料冗餘判斷結果。

節省儲存空間，進而節省成本
依廠商的宣稱，原始資料經過重複資料刪除技術的處理後，可得到高達10：1到50：1的資料壓縮率，某些情況下還會有更高的比率。由於重複資料刪除技術的分析比對是對所有已儲存資料與新產生資料持續進行的，除非該環境的資料差異性非常大，否則隨著時間的延長，執行資料分段比對與冗餘處理的次數越多，則得到的壓縮效果也就會越高，當然實際的壓縮效果需視資料型態而定。

雖然重複資料刪除技術宣稱能透過降低硬碟空間進而節省儲存費用，但這項技術本身也需要一定的成本才能取得（而且還不便宜），因此只有儲存容量需求超過一定限度，這項技術節省的容量花費抵消其本身的費用後，整體的成本降低效果才能顯現。依表1的估計，假設提供的「可用」儲存空間均相同時，只要重複資料刪除技術的壓縮比達到10：1，就能降低25～50%的單位儲存成本；若壓縮比為15：1，則單位儲存成本就能比不使用時降低1倍以上；如果達到20：1以上的壓縮比，則重複資料刪除技術所需的單位成本就能降低到甚至比磁帶還低的程度，此時改用硬碟來取代磁帶來作為資料的最終儲存媒體，就會有相當的競爭力。

然而不管是哪一類型的技術，由於系統在每次寫入資料時，都要對所有的資料進行分段演算與特徵值校驗，無論這個演算是在前端機器、還是再後端專屬設備上執行，就整個系統的存取效能來說還是會造成負面的影響，一定還是會比直接寫入磁碟的方式慢上許多。因此只適用於較不要求效能的近線儲存，如VTL、固定內容儲存等應用，而不適用於即時儲存環境。文⊙張明德

備份緩衝與歸檔是主流應用

如內文所述，由於重複資料刪除技術會影響系統的存取效能，因此不適於對性能要求較高的線上即時儲存環境，但對作為中介緩衝的近線儲存、郵件、檔案歸檔等應用來說，就能充分發揮其節省容量的好處，而又不會暴露出減損存取效能的缺點。目前主要的應用範圍有以下三方面：

備份緩衝磁碟、近線儲存與虛擬磁帶櫃（VTL）
也就是應用在分層儲存中的第2層儲存裝置上，透過重複資料刪除技術，將能使得儲存容量大幅提高，對備份緩衝磁碟與虛擬磁帶櫃來說，由於可容納的資料量提高，因此使用者原來每隔幾天或每週就需要執行一次的轉存（磁帶）作業，可改為間隔1個月甚至是半年之久，除減輕管理壓力、降低緩慢的磁帶轉存作業對系統帶來的衝擊外，由於留存在硬碟上的資料量增多，也提高了資料還原或檢索的速度，降低從眾多備份磁帶中找尋資料的機率。目前絕大多數的重複資料刪除技術產品都是針對這個應用領域，如ADIC、Diligent、Data Domain與Sepaton等都是將產品結合二級儲存或VTL銷售。

遠端備份儲存
某些廠商如Asigra、Symantec等的重複資料刪除產品是鎖定在遠端備份的應用，透過在前端的重複資料刪除技術來大幅降低備份的資料量，從而減輕網路頻寬需求。這類產品其實可以看做是一種附加了重複資料刪除技術的備份軟體。

郵件歸檔與固定內容儲存
對於郵件、數位X光片、票據等依法律規定不可刪改、非經常使用，但又必須被儲存的固定內容（Fixed Content）資訊來說，重複資料刪除技術也有很大的應用潛力。由於這類資訊依法規定不能刪改，資料量會隨著時間而不斷增長，消耗的儲存資源也越來越大。因此重複資料刪除技術在這個領域將可大展所長，除縮減空間需求外，由於重複資料刪除技術是透過每個資料分段的特徵值與索引來辨識與檢索資料，免除傳統檔案系統須在邏輯位址與實際區塊的物理儲存位址間轉換的麻煩，因此也能提高資料定位與檢索的效率。其實在2年前EMC發表針對歸檔市場的Centera時，所宣稱的固定內容尋址（CAS）技術就具備與重複資料刪除十分類似的單實例儲存特性。而HP在其歸檔產品RISS剛發表的 1.5版中，也增加了區塊級的單實例儲存功能，宣稱可提供3～5倍的資料壓縮，將每TB儲存成本將低到原來的1/4。

小型新創企業領導重複資料刪除技術

重複資料刪除技術是一項新興技術，目前這個領域的領導廠商多半是些小型的新創企業，如Asigra、Avamar、Data Domain、與Rocksoft等，大廠方面則有ADIC、Symantec與微軟等。依產品針對的應用範圍不同，可分為純軟體與應用程式伺服器兩類：

使用彈性大的純軟體產品
純軟體類產品的運用方式主要是在備份方面，如Asigra與Avamar都是將重復刪除技術整合在其Televaulting與Axion備份軟體中，而Symantec去年併購DTC取得重復資料刪除技術後推出的NetBackup 6.0 PureDisk也是鎖定在遠端備份。

比較特別的是微軟在剛推出的Windows Storage Server 2003 R2上也新增了單實例儲存功能，不過WSS R2不直接提供給終端用戶，而是搭配儲存廠商的硬體一起銷售。

應用伺服器產品便於部署
應用伺服器類的產品以Data Domain最為典型，Data Domain是將其產品包裝為儲存伺服器或閘道器，使用時只要在備份軟體下將儲存目標指向Data Domain的伺服器即可。另外Diligent去年推出的ProtectTier系列、以及ADIC的PathLight VX VTL也採用類似的架構，這些產品都是包裝成VTL伺服器，只要接上儲存網路即可提供重覆資料刪除服務。比較特別的是Sepaton同時有DeltaStor獨立軟體以及與VTL伺服器結合的S2100-ES2應用伺服器，針對的是高階的企業用戶。

不過，業界並非一致看好重複資料刪除技術，隨著垂直寫錄技術的採用，新一代的硬碟在單位儲存密度與成本方面將有持續的突破，連帶也會影響到企業採用重複資料刪除技術的意願。另外對EMC、IBM、HP這類同時擁有軟、硬體產品線的儲存大廠來說，由於重複資料刪除技術將促使客戶減少在儲存容量方面的投資，顯然會影響到其硬體產品方面的銷售，因此對投入這個領域將會存在相當疑慮，實際上目前這個領域的廠商也多為不需背負硬體銷售包袱的廠商為主。文⊙張明德

熱門新聞