微軟現在讓Azure用戶可以了解虛擬機器發生原因的根本問題,藉由使用新的根本原因分析(Root Cause Analysis,RCA)引擎,解析Azure平臺設備和服務的遙測資料,經過關聯和歸因分析之後,對不同故障狀況給出根本原因解釋。

現有的Azure資源健康狀態總覽功能,可以協助用戶診斷影響Azure服務的問題,該功能會提供當前和過去的運作狀況,顯示每個資源無法使用的時間,但是無法提供發生問題的潛在原因,而現在微軟強化Azure資源健康狀態總覽功能,以提供用戶更多有關於資源運作的狀況,以及導致問題發生的背景資訊。

現在當虛擬機器發生可用性問題時,用戶除了可以快速獲得通知之外,當自動化根本原因分析(RCA)確定導致虛擬機器出現故障的Azure平臺元件,用戶便可查看調查細節。RCA引擎的原理和背後技術核心,源自於Azure資料總管(ADX),這是一個大規模日誌遙測分析系統,經最佳化所提供的資料服務,Azure資料總管能夠解析Azure平臺設備與服務的數TB日誌遙測資料,並且經過綜合分析後,給出故障的詳細資訊。

自動化根本原因分析有幾個階段,第一階段是定義分析觸發事件,RCA需要確認虛擬機器是不是在非預期的情況下重新啟動,因此觸發事件便是從啟動狀態變成關閉狀態的轉換,微軟解釋,在大多數情況下,利用平臺遙測資料來辨識這些轉換很簡單,但是在部分類型的基礎設施故障時,便會很困難,而且平臺遙測可能會因為設備故障或是斷電而失效。為了處理這類型的故障,微軟必須使用其他類型的技術,像是資料丟失追蹤,來作為虛擬機器運作狀態轉換的可能指標。

在確認觸發事件之後,接下來便要進行相關性分析,Azure平臺上的系統,包括主機或是儲存等各部分,都有各自的遙測饋送,RCA引擎需要對這些遙測資料進行解析,並找出與虛擬機器觸發事件的關聯,透過了解可能導致虛擬機器故障的底層系統相依關係圖,將所有相依系統的健康狀態整合在一起,過濾時間相近的虛擬機器轉換事件,來探索相關性。

在相關性分析結束後,輸出會是一個資料集,來表示虛擬機器停機時間相關的平臺遙測資料,以提供判斷虛擬機器故障的可能原因。RCA引擎會根據這個資料集,應用歸因規則來解釋資訊,並將其轉換成為用戶能夠理解的訊息。

最後一個階段則是將根本原因發布到Azure資源健康狀態總覽,供用戶查看故障的進一步資訊,微軟提到,因為資訊流可能會因為各種資料延遲,而推延出現的時間,所以在這個過程可能會偶爾更新分析資訊,以反映更具體更細節的根本原因。


熱門新聞

Advertisement