Cloudflare與AWS us-east-1區域間的互連(Interconnect)示意,因單一路徑僅剩半數容量運作,AWS在偵測壅塞後透過BGP將部分流量導向其他連線,但次要連線很快也因承載不足而擁塞

臺灣時間8月22日00:27,因單一用戶自AWS美東雲端區域(us-east-1)大量請求Cloudflare快取物件,導致回應流量暴增,使Cloudflare與AWS us-east-1之間的私人網路互連(Private Network Interconnect,PNI)飽和,受影響的使用者出現高延遲、封包遺失與連線到來源伺服器失敗。事故在03:38已明顯緩解,並於04:18完全解除。

此次問題僅限Cloudflare與AWS us-east-1之間的互連路徑,非攻擊或BGP劫持,全球其他服務均維持正常。

Cloudflare解釋,雖然這些請求大多可以直接由快取回應,但回應的流量仍需透過資料中心互連(DCI)和邊界路由器傳送到AWS,最終導致所有既有的私人網路互連被擠滿。為了減輕壅塞,AWS在部分擁塞的私人網路互連上撤回BGP前綴,讓流量改走另一組經由異地交換中心的私人網路互連,不過這條路徑也很快達到極限。

事件之所以惡化,還受兩項因素放大,其中一條直接對等鏈路因為早前的故障只能以半速運作,而連往異地交換中心的資料中心互連路徑也尚未完成擴充。

對終端使用者而言,最明顯的感受是延遲升高、請求逾時與傳輸速度下降。Cloudflare指出,事故期間邊界路由器的高優先權佇列長時間出現封包丟棄,模擬用戶連線至來源伺服器的延遲指標(SLO)也同步惡化。雖然在壅塞解除後,封包丟棄率很快恢復正常,但由於AWS與Cloudflare同時調整前綴公告,延遲下降的速度相對較慢,部分終端使用者持續受到影響。

事故發生後,Cloudflare在Ashburn的監測系統偵測到壅塞,並與AWS展開協調。Cloudflare先針對流量暴增的單一用戶採取限速措施,再透過流量工程調度逐步釋放壓力。AWS則同步恢復先前因分流而撤回的BGP前綴,雙方合作下,受影響的連線逐步回復正常。

Cloudflare強調,這起事件凸顯單一用戶尖峰流量對整體互連的衝擊。他們將建立自動化機制,讓異常流量在影響其他用戶前就能被降低優先順序,並加速資料中心互連容量的擴充,同時和AWS調整路由策略,避免因雙方動作重疊而加劇問題。

熱門新聞

Advertisement