西歐時間3月24日到3月26日,歐洲及英國Azure用戶感受到Windows及Linux agents開發作業變得十分慢。三天內共有6,136名客戶感受到作業延遲,平均延遲21分鐘,有人甚至等了9小時。圖片來源/微軟,https://status.dev.azure.com/_event/181122901/post-mortem

武漢肺炎疫情讓許多人必須在家上班,Microsoft Azure等雲端服務一旦斷線或不穩,將嚴重影響工作效率。上月底Azure發生網路塞爆問題,微軟卻等了5小時才向用戶說明情況。周四微軟解釋,因為負責管理的人員當時還在被窩中。

西歐時間3月24日到3月26日,歐洲及英國Azure用戶感受到Windows及Linux agents開發作業變得十分慢。微軟Azure工程總監Chad Kimes指出,這是因為當天巨大流量導致Azure VM配置錯誤,造成VM reimage時間增加,進而拉長可用agents的等候時間。微軟技術人員發現後做了緊急變更,對Linux agent改使用暫時(ephemeral)OS磁碟,並以擴充Azure VM和使用巢狀虛擬化(nested virtualization)解決Windows agents 問題。

三天內共有6,136名客戶感受到作業延遲,平均延遲21分鐘,有人甚至等了9小時。

但除了技術問題,微軟坦承線上網站事件通報也出了狀況。情況最嚴重的第一天,微軟方面卻遲了快5小時,才向用戶通知此事,遠遠超過10分鐘內通知的正規程序。按照Azure的作業流程,Azure系統的自動化工具會在發生事件時,通知指派負責人員(designated responsible individual,DRI)和主要事件管理員(primary incident manager,PIM),後者負責將事件的對外(客戶)通訊。當天事件發生時,DRI努力尋找原因及排除問題的同時,PIM卻還未起床,直到5小時後美東時間一早,他才發出通報。

微軟對此向用戶致歉,並承諾做出改善,包括強化運算資源配置失誤率及agent reimage時間的監控,並在發現問題時,迅速擴大使用暫時OS磁碟及巢狀虛擬化,以解決Linux和Windows agents問題。最後,微軟也會改善線上網站對作業延遲事件的通報流程。

熱門新聞

Advertisement