單一用戶流量暴增，Cloudflare與AWS美東區域連線壅塞近四小時

Cloudflare與AWS us-east-1區域間的互連（Interconnect）示意，因單一路徑僅剩半數容量運作，AWS在偵測壅塞後透過BGP將部分流量導向其他連線，但次要連線很快也因承載不足而擁塞

臺灣時間8月22日00:27，因單一用戶自AWS美東雲端區域（us-east-1）大量請求Cloudflare快取物件，導致回應流量暴增，使Cloudflare與AWS us-east-1之間的私人網路互連（Private Network Interconnect，PNI）飽和，受影響的使用者出現高延遲、封包遺失與連線到來源伺服器失敗。事故在03:38已明顯緩解，並於04:18完全解除。

此次問題僅限Cloudflare與AWS us-east-1之間的互連路徑，非攻擊或BGP劫持，全球其他服務均維持正常。

Cloudflare解釋，雖然這些請求大多可以直接由快取回應，但回應的流量仍需透過資料中心互連（DCI）和邊界路由器傳送到AWS，最終導致所有既有的私人網路互連被擠滿。為了減輕壅塞，AWS在部分擁塞的私人網路互連上撤回BGP前綴，讓流量改走另一組經由異地交換中心的私人網路互連，不過這條路徑也很快達到極限。

事件之所以惡化，還受兩項因素放大，其中一條直接對等鏈路因為早前的故障只能以半速運作，而連往異地交換中心的資料中心互連路徑也尚未完成擴充。

對終端使用者而言，最明顯的感受是延遲升高、請求逾時與傳輸速度下降。Cloudflare指出，事故期間邊界路由器的高優先權佇列長時間出現封包丟棄，模擬用戶連線至來源伺服器的延遲指標（SLO）也同步惡化。雖然在壅塞解除後，封包丟棄率很快恢復正常，但由於AWS與Cloudflare同時調整前綴公告，延遲下降的速度相對較慢，部分終端使用者持續受到影響。

事故發生後，Cloudflare在Ashburn的監測系統偵測到壅塞，並與AWS展開協調。Cloudflare先針對流量暴增的單一用戶採取限速措施，再透過流量工程調度逐步釋放壓力。AWS則同步恢復先前因分流而撤回的BGP前綴，雙方合作下，受影響的連線逐步回復正常。

Cloudflare強調，這起事件凸顯單一用戶尖峰流量對整體互連的衝擊。他們將建立自動化機制，讓異常流量在影響其他用戶前就能被降低優先順序，並加速資料中心互連容量的擴充，同時和AWS調整路由策略，避免因雙方動作重疊而加劇問題。

熱門新聞