去年聖誕夜(12月24日)專門提供影片串流的Netflix服務中斷了近20小時,並說明是受到Amazon雲端(AWS)故障的影響,Amazon隨後出面解釋,是因負載服務(Amazon Elastic Load Balancing Service,ELB)的資料誤刪所引起。

Amazon ELB從故障到完全恢復的時間為2012年12月24日的中午12點24分到12月25日的12點05分。Amazon說明,該站的開發人員在進行維護時不小心刪除了ELB上的狀態資料,這些資料是用來管理美東的負載平衡器,但當時沒未發現,一直到ELB控制盤在呼叫API來管理負載平衡器時不斷出現延遲及錯誤才得知,且只有少數的ELB負載平衡器受到影響。

一開始Amazon並未發現出錯的原因,而以為是API錯誤,隨後AWS的客戶才提報他們在更改負載平衡的設定後效能出現問題,Amazon才發現癥結,並回復遺失的ELB資料。

Amazon表示,在最高峰的時候,只有6.8%使用負載平衡器的服務受到影響,因為其他的負載平衡器無法由客戶自行擴充或修改而未受波及,AWS團隊先致力於手動回復受到影響的負載平衡器,之後才裝回移失的ELB資料。

除了道歉外Amazon也祭出補救措施,包括提出更嚴謹的規定以降低ELB狀態資料被誤刪的風險,並藉由此次的經驗修改資料回復流程來加快資料回復速度。(編譯/陳曉莉)


Advertisement

更多 iThome相關內容