iThome

RAID 2.0架構的基本原理,是透過分散式虛擬區塊技術,將資料打散到更多硬碟上,藉由讓更多硬碟參與RAID群組,來提高系統重建效能,硬碟數量越多,速度也越快。

但由此衍生出的一個疑慮,便是出現硬碟失效的機率,將隨著系統硬碟數量的增加而大幅提高。

每臺硬碟都存在著一定的失效機率,群組內的硬碟數量越多,累積出現硬碟失效的機率也越高。例如使用一個4臺硬碟組成的RAID 5群組時,出現2臺硬碟同時失效、導致系統無法回復的機率是很小的;但如果透過RAID 2.0把同樣的資料打散到100臺硬碟上,這100臺硬碟累積出現2臺硬碟故障的機率,將會大幅增加幾十倍。所以,RAID 2.0出現硬碟故障的機率是增加的。

舉例來說,以同樣使用40臺硬碟,搭配使用容許一臺硬碟失效的RAID 5組態為基準,RAID 2.0的做法是將40臺硬碟全構成為一個磁碟群組,而傳統RAID 5則通常是將40臺硬碟,分別組成8個各含5臺硬碟的群組。就硬碟失效機率來說,若整個系統硬碟總數相同(40臺),在全系統層級出現硬碟失效的機率也相同,傳統RAID與RAID 2.0之間沒有差異。

但就建立LUN所在的RAID群組層級來說,傳統RAID 5的小群組(5臺硬碟),遇上硬碟失效的機率,要比RAID 2.0的40臺硬碟大群組低的多。而就容錯能力來看,RAID 2.0整個40臺硬碟的磁碟群組在RAID 5組態下,只能承受1臺硬碟失效,而傳統RAID 5架構,則是8個RAID 5群組各自都能承受1臺硬碟失效。不過當出現1臺硬碟失效後時,RAID 2.0由於能動用全部剩餘完好硬碟(39臺)共同進行重建作業,速度要比只能動用個別RAID 5群組剩餘硬碟(4臺)進行重建的傳統RAID快上許多。

就系統可靠性指標來說,考慮到失效維護時間的平均失效間隔(MTBF),是出現故障機率的平均失效間隔(MTTF),加上執行修護、恢復正常運作所需時間長短的平均維修間隔(MTTR)之和。RAID 2.0的MTTF要比傳統RAID更差(隨硬碟數量增加成反比),但MTTR卻遠低於傳統RAID(重建恢復正常的速度快了10~20倍),一增一減之下,在全系統層級,RAID 2.0的可靠性仍等同或優於傳統RAID。

但是在個別LUN的層級,傳統RAID的LUN是位於少數幾臺硬碟組成的RAID群組內,而RAID 2.0的LUN是位於幾十臺硬碟組成的大群組內,所以LUN的可靠性反而是降低了。

考慮到這個問題,當使用RAID 2.0時,最好搭配使用容錯能力較高的RAID 6組態,並限制磁碟群組規模,以抑制LUN失效機率。

 相關報導  RAID 2.0興起


Advertisement

更多 iThome相關內容