Downdetector解析AWS大當機災情，超過60個國家與3,500家公司受到影響

上個月公有雲業者AWS美國東部第一區（US‑EAST‑1，維吉尼亞北部區域）的資料中心，因為DynamoDB服務的DNS自動管理系統的一個潛在缺陷，使得此區域的DynamoDB端點（dynamodb.us-east-1.amazonaws.com）網域名稱解析失敗，由於自動化處理也未能修復此問題，而導致依賴這套資料庫服務的其他雲端服務受到影響。AWS內部遭遇的狀況與處理過程，已經在10月20日的AWS Health Dashboard儀表板，以及10月23日公布的調查報告摘要揭露，然而，大家還是想知道這次大當機事故產生的連鎖影響究竟有多廣泛。

雖然當週陸續有不少大眾新聞媒體報導災情，當中提到數千家企業受到影響，但這個數字從何而來？我們看到有廠商提供另一種角度的觀察，或許能夠作為具體影響規模的佐證。旗下擁有Speedtest與Downdetector的網路測速與網路品質分析服務公司Ookla，在10月22日發布統計分析報告。依據Downdetector記錄的1,700萬份用戶通報，他們表示，橫跨六十多個國家、超過3,500家公司受到影響，是Downdetector有紀錄以來的最大型網際網路停擺事故之一。

受創規模最嚴重的5個地區，分別是美國（超過630萬份通報）、英國（超過150萬份通報）、德國（77.4萬份通報）、荷蘭（73.7萬份通報）、巴西（58.9萬份通報）。

就通報數量最多的服務業者而言，前十大苦主分別是：即時通訊與社交應用系統Snapchat（約300萬份通報）、公有雲服務AWS（約250萬份通報）、遊戲發布平臺Roblox（約71.6萬份通報）、亞馬遜零售業務（約69.8萬份通報），社群論壇網站Reddit（約39.7萬份通報），物聯網門鈴服務Ring（約35.7萬份通報），教育科技SaaS服務Instructure（約26.5萬份通報），行動支付服務Venmo（約15.4萬份通報），多人連線遊戲要塞英雄Fortnite（約14.2萬份通報），多媒體內容創作SaaS服務Canva（約13.3萬份通報），整體而言，這起事故廣泛衝擊許多領域，像是社交與遊戲（Snapchat、Fortnite、Roblox）、銀行金融（英國的Lloyds與Halifax）、公共服務（英國稅務海關總署）、智慧家居（Ring與Alexa），以及教育與工作用的工具（Instructure與Zoom）。

受到AWS大當機的影響，Downdetector的紀錄顯示，這些服務停擺的高峰與低谷受到時區差異的影響，歐洲當機通報的數量率先暴增，因為那時已是當地10月20日上午，許多辦公場所已開始運作，第二波高峰出現在北美10月20日上午。

Ookla對此也特別列出三個時段的狀況。

首先，是在世界協調時間10月20日6時49分，出現第一個用戶通報，而且與AWS狀態訊號吻合，6時56分Downdetector記錄到連接US-EAST-1的服務出現急遽高峰，故障發生兩小時後，他們接獲超過4百萬個服務停擺通報。

第二個時段是9時24分，AWS表示，涉及US-EAST-1區域DynamoDB端點的DNS解析問題，是主要故障的原因，當時已經緩解。

到了10月20日之後，依賴AWS的各項服務以不同速度復原，過程中，相關系統不斷透過重新嘗試、排隊依序執行，以及快取清空等程序。後續隨著更多使用者上線，Downdetector一度偵測到美國的當機通報數量超過600萬個。

關於US‑EAST‑1發生事故為何影響超過60個國家的用戶，Ookla也提出觀點。他們認為區域集中（Regional concentration）與AWS旗下服務的緊耦合（tight coupling），放大了衝擊程度，因為AWS有許多支援全球的技術基礎應用，它們的路由都會經過這個雲端區域，而且，當前不少應用程式的運作會串聯多種全代管雲端服務，涵蓋儲存、佇列、無伺服器等類型，如果DNS無法解析DynamoDB API這類重要端點，就可能會經由多個串流API產生連鎖故障的問題，造成不直接依賴AWS的使用者應用程式出現明顯的故障狀況，而這也是Downdetector能記錄Snapchat、Roblox、Signal、Ring、HMRC等線上服務停擺的原因。

另一個造成大當機災情的複雜因素，Ookla認為是身分認證，由於DynamoDB的問題也衝擊AWS的身分認證機制，也就是負責處理登入與許可的身分與存取管理系統（IAM），因此，在大當機事發初期，有些團隊無法登入AWS管理主控臺，當然也不能變更設定、轉移流量，或是重新啟動服務，導致難以套用相關的修正機制，所以，即使核心系統後續恢復正常，但整體復原速度依舊緩慢，甚至當AWS已經完全緩解問題，重新嘗試、逾時，以及訊息傳遞等狀況的積壓（backlogs），仍耗費許多時間清理，AWS維運團隊需經常限制重新啟動次數，以保護後端系統運作，所以必須等待供應商端的運作狀態恢復正常，之後用戶才會見到系統復原。

而在Downdetector收到的通報也符合上述模式，他們觀察到不同地理位置在10月20日下午與晚間的復原狀態變化，歐洲先恢復正常，之後是美國。

熱門新聞