
上個月公有雲業者AWS美國東部第一區(US‑EAST‑1,維吉尼亞北部區域)的資料中心,因為DynamoDB服務的DNS自動管理系統的一個潛在缺陷,使得此區域的DynamoDB端點(dynamodb.us-east-1.amazonaws.com)網域名稱解析失敗,由於自動化處理也未能修復此問題,而導致依賴這套資料庫服務的其他雲端服務受到影響。AWS內部遭遇的狀況與處理過程,已經在10月20日的AWS Health Dashboard儀表板,以及10月23日公布的調查報告摘要揭露,然而,大家還是想知道這次大當機事故產生的連鎖影響究竟有多廣泛。
雖然當週陸續有不少大眾新聞媒體報導災情,當中提到數千家企業受到影響,但這個數字從何而來?我們看到有廠商提供另一種角度的觀察,或許能夠作為具體影響規模的佐證。旗下擁有Speedtest與Downdetector的網路測速與網路品質分析服務公司Ookla,在10月22日發布統計分析報告。依據Downdetector記錄的1,700萬份用戶通報,他們表示,橫跨六十多個國家、超過3,500家公司受到影響,是Downdetector有紀錄以來的最大型網際網路停擺事故之一。
受創規模最嚴重的5個地區,分別是美國(超過630萬份通報)、英國(超過150萬份通報)、德國(77.4萬份通報)、荷蘭(73.7萬份通報)、巴西(58.9萬份通報)。
就通報數量最多的服務業者而言,前十大苦主分別是:即時通訊與社交應用系統Snapchat(約300萬份通報)、公有雲服務AWS(約250萬份通報)、遊戲發布平臺Roblox(約71.6萬份通報)、亞馬遜零售業務(約69.8萬份通報),社群論壇網站Reddit(約39.7萬份通報),物聯網門鈴服務Ring(約35.7萬份通報),教育科技SaaS服務Instructure(約26.5萬份通報),行動支付服務Venmo(約15.4萬份通報),多人連線遊戲要塞英雄Fortnite(約14.2萬份通報),多媒體內容創作SaaS服務Canva(約13.3萬份通報),整體而言,這起事故廣泛衝擊許多領域,像是社交與遊戲(Snapchat、Fortnite、Roblox)、銀行金融(英國的Lloyds與Halifax)、公共服務(英國稅務海關總署)、智慧家居(Ring與Alexa),以及教育與工作用的工具(Instructure與Zoom)。
受到AWS大當機的影響,Downdetector的紀錄顯示,這些服務停擺的高峰與低谷受到時區差異的影響,歐洲當機通報的數量率先暴增,因為那時已是當地10月20日上午,許多辦公場所已開始運作,第二波高峰出現在北美10月20日上午。
Ookla對此也特別列出三個時段的狀況。
首先,是在世界協調時間10月20日6時49分,出現第一個用戶通報,而且與AWS狀態訊號吻合,6時56分Downdetector記錄到連接US-EAST-1的服務出現急遽高峰,故障發生兩小時後,他們接獲超過4百萬個服務停擺通報。
第二個時段是9時24分,AWS表示,涉及US-EAST-1區域DynamoDB端點的DNS解析問題,是主要故障的原因,當時已經緩解。
到了10月20日之後,依賴AWS的各項服務以不同速度復原,過程中,相關系統不斷透過重新嘗試、排隊依序執行,以及快取清空等程序。後續隨著更多使用者上線,Downdetector一度偵測到美國的當機通報數量超過600萬個。

關於US‑EAST‑1發生事故為何影響超過60個國家的用戶,Ookla也提出觀點。他們認為區域集中(Regional concentration)與AWS旗下服務的緊耦合(tight coupling),放大了衝擊程度,因為AWS有許多支援全球的技術基礎應用,它們的路由都會經過這個雲端區域,而且,當前不少應用程式的運作會串聯多種全代管雲端服務,涵蓋儲存、佇列、無伺服器等類型,如果DNS無法解析DynamoDB API這類重要端點,就可能會經由多個串流API產生連鎖故障的問題,造成不直接依賴AWS的使用者應用程式出現明顯的故障狀況,而這也是Downdetector能記錄Snapchat、Roblox、Signal、Ring、HMRC等線上服務停擺的原因。
另一個造成大當機災情的複雜因素,Ookla認為是身分認證,由於DynamoDB的問題也衝擊AWS的身分認證機制,也就是負責處理登入與許可的身分與存取管理系統(IAM),因此,在大當機事發初期,有些團隊無法登入AWS管理主控臺,當然也不能變更設定、轉移流量,或是重新啟動服務,導致難以套用相關的修正機制,所以,即使核心系統後續恢復正常,但整體復原速度依舊緩慢,甚至當AWS已經完全緩解問題,重新嘗試、逾時,以及訊息傳遞等狀況的積壓(backlogs),仍耗費許多時間清理,AWS維運團隊需經常限制重新啟動次數,以保護後端系統運作,所以必須等待供應商端的運作狀態恢復正常,之後用戶才會見到系統復原。
而在Downdetector收到的通報也符合上述模式,他們觀察到不同地理位置在10月20日下午與晚間的復原狀態變化,歐洲先恢復正常,之後是美國。
熱門新聞
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2025-12-31




