![]() |
林美冠 FalconStor亞太地區儲存技術部經理,曾在FalconStor擔任過諮詢與技術支援工作,並參與過IPStor與VTL系統的建置案。 |
重複資料刪除技術(Data De-duplication)是這兩年來新出現的儲存技術,廠商宣稱可藉由高達30~50倍的資料壓縮率,從而達到節省儲存空間與設備成本的目的。
將原始資料壓縮為原來的30~50分之ㄧ是相當驚人的數字,但重複資料刪除技術是否真能達到如此高的壓縮率?而為了取得這樣的壓縮率,對系統存取效能以及資料完整性又將帶來什麼影響?
我們訪問了曾參與相關產品開發的FalconStor亞太地區儲存技術部經理林美冠,來為我們說明這幾個重複資料刪除技術的關鍵問題。
Q:重複資料刪除技術真有壓縮幾十倍儲存空間的「神奇」效果嗎?它是如何辦到的?
A:壓縮效果要看資料型態而定,如果原始資料是已經壓縮過的圖像或影音檔,那重複資料刪除技術能發揮的作用就不大。但如果是一般的文件檔案,或是資料庫檔案,壓縮效果就會相當好。
重複資料刪除技術是透過追蹤檢核硬碟上的資料區塊做到的。當新資料存入硬碟前會先經由系統的掃描與檢核,若系統判定硬碟上已有一個相同的副本,那新資料將只存入一個指向該副本位址的索引(index),不會重複儲存,從而達到節省磁碟空間的目的。
Q:重複資料刪除技術在企業儲存中有哪幾種應用方式?
A:依設計目的與應用方向的不同,重複資料刪除技術可以當作節省資料長期儲存資源的工具,也可以當作一種降低遠端複製頻寬需求的手段。
重複資料刪除技術可與備份軟體整合,透過代理程式的運作,將備份資料壓縮後再送到後端的儲存媒體,或是直接建置成一個單獨使用或與虛擬磁帶櫃(VTL)搭配使用的應用伺服器,只要寫進應用伺服器的資料都會經過系統的壓縮。
Q:現在的SATA硬碟已經越來越便宜,企業還需要透過重複資料刪除技術來節省儲存成本嗎?
A:企業資料的成長非常迅速,而在法規的要求下,長期儲存的需求也越來越高,為縮短備份窗口,並便於在必要時迅速取回資料,企業越來越依賴磁碟作為儲存媒體,甚至直接將硬碟作為備份資料的最終媒體,雖然硬碟越來越便宜,但無限制的購買硬碟顯然不是因應長期儲存的最佳方式。
為儲存越來越多的資料而添購硬碟,除了硬碟本身的成本外,企業的磁碟陣列等儲存系統的耗電量,也會隨著硬碟容量的增加而攀升,另外帶來管理方面的問題。
因此硬碟的單位成本固然是越來越低,但隨著企業資料量的提高,若不透過重複資料刪除技術來節約儲存空間,隨之而來的電費與管理問題,還是會使整體儲存成本不斷升高。當然若企業的資料量不大,或是只需短暫存檔,那就沒有引進這類技術的需要,但只要企業的資料量達到TB級,且需要長期保存,就可評估是否導入重複資料刪除技術,降低長期存檔時的容量需求。
Q:重複資料刪除技術如何確保資料的完好性,壓縮後的資料還能完整的還原嗎?
A:重複資料刪除技術的關鍵在於原始資料會透過特定演算法進行分段處理,以判別資料是否為「冗餘」,最後只會留下與先前資料沒有重複的部分,也就是資料的基本元素,以及記載原來資料如何組成的index。理論上透過紀錄原始資料結構的index就能還原資料。
而像Hash演算法都已經是業界的標準,因此應該不致於有這方面的疑慮。不過有某些廠商不是使用公開的標準演算法,而是使用自行開發的專利演算法。
Q:透過重複資料刪除技術壓縮後的資料,由於實體儲存空間中只剩下基本的資料元素與記錄資料結構的index,必須在相同系統下才「看得懂」,但這樣一來,如果重複資料刪除的應用伺服器發生問題,資料不就會因此無法使用?
A:不同的產品有不同的作法。譬如說,可透過高可用性的機制來解決這個問題。
舉例來說,我們可以透過叢集架構建置執行重複資料刪除作業的伺服器,可以讓多臺伺服器同時處理前端送進來的資料,因此單一伺服器的故障不會影響到系統的運作。多臺伺服器同時失效的機率很低,即使發生這種狀況,也可透過事先建置遠端複製機制解決,也就是說,在遠端另外準備一套伺服器,並定時把資料傳送到遠端作為備援。
Q:您剛剛提到重複資料刪除技術除了節省儲存空間外,還有節省頻寬的效果?
A:原始資料經Hash演算法處理後只剩下基本元素與索引,由於資料佔用的實體空間很小,因此可以相對降低許多的傳輸頻寬,將資料傳輸到遠端的另一臺伺服器上,達到異地儲存備援的效果。當然還可結合頻寬控制機制,進一步控制遠端複製佔用的網路頻寬。整理⊙張明德
熱門新聞
2026-01-12
2026-01-12
2026-01-12
2026-01-12
2026-01-12
