故障率在操作溫度30-40度C之間呈增加趨勢,40度C以上時出現三種不同的模式:增加、無感、降低。

Facebook與卡內基美隆大學(Carnegie Mellon University)的研究人員以Facebook內部實際使用的Flash固態硬碟(SSD)為基礎,調查SSD故障情況,並出版了「快閃記憶體故障的大規模實地研究」(A Large-Scale Study of Flash Memory Failures in the Field)報告顯示,溫度與資料儲存分布對於SSD的故障率影響都相當顯著。

Facebook表示,有愈來愈多的伺服器使用高效能的SSD取代傳統硬碟來儲存資料,但隨著SSD儲存密度的增加也讓晶片的可靠性下滑,在資料中心的環境中,SSD的故障可能導致系統停擺,更糟的情況會造成資料流失,因此,了解實際生產環境中SSD生命周期的可靠性是很重要的,而這也是第一份於現場調查SSD可靠度的大規模研究。

此一研究分析了Facebook眾多資料中心近4年來所使用的固態硬碟,這些硬碟的運作時數超過數百萬小時,研究人員嘗試理解讀寫資料量、資料分布、資料複製/移除/丟棄、溫度及匯流排電力(bus power)等因素與SSD故障的關聯性。

結果發現,SSD的故障率並不只與SSD的使用年限有關,不論是新舊硬碟都會故障。因讀取擾動(read disturbance)效應所造成的故障並不常見。資料分布太稀疏或是太密集都會讓SSD有更高的故障率。較高的溫度也會導致較高的故障率,特別是未採用節流技術(throttling)的SSD上更為明顯。系統緩衝與減少磨損的技術可能會讓系統所記錄的資料寫入量大過於實際寫入量。

Facebook表示,他們希望此一大規模的研究能夠拋磚引玉,激勵其他業者也能公開發表有關的分析報告或找出可提昇Flash可靠性的解決方案。(編譯/陳曉莉)


Advertisement

更多 iThome相關內容