美國網路基礎設施業者Cloudflare在世界協調時間(UTC)周二(11/18)早上11時許發生故障(約是臺灣時間11/18晚上7時許),原本內部以為遭到大規模的分散式服務阻斷(DDoS)攻擊,結果發現是變更資料庫系統權限的一系列操作所觸發的。此一故障延續約6小時,一直到臺灣時間11/19凌晨1點多才恢復正常。Downdetector顯示Spotify、Facebook、Anthropic、X、OpenAI與AWS等服務,在Cloudflare事故同一時段出現大量使用者回報,雖無法確認因果關係,但時間重疊,推測可能受到牽連。
成立於2010年的Cloudflare所提供的服務,包括內容傳遞與效能、網路安全、邊緣運算與開發,以及企業雲網路服務等,標榜可讓全球網站、應用及企業網路更快也更安全,它在全球數百個城市部署邊緣節點,為目前涵蓋範圍最廣的網路遞送與安全平臺之一,許多網站的流量都會先經過Cloudflare才到達使用者。
Cloudflare很快公布了此次意外的始末,表示他們在UTC 11:05於ClickHouse資料庫上部署了一項權限更新,讓使用者能顯式看到底層資料庫r0的欄位資訊。然而,Bot Management功能檔的生成查詢並未過濾資料庫來源,更新後同時抓到default與r0兩份相同欄位,導致功能檔內容倍增。
功能檔在全網傳播後,代理模組(FL/FL2)因其特徵數量超過預先配置的上限而發生錯誤並崩潰,使得全球自UTC 11:20起出現第一波伺服器錯誤(HTTP 5xx)。
Cloudflare的核心代理模組(FL/FL2)是所有HTTP流量的共同入口,無論是網站、API、登入驗證、Workers、CDN或Turnstile,使用者的每一個請求都必須先經過這個代理層,再依序套用Bot Management、WAF、防火牆與快取等模組。因此,代理模組相當於Cloudflare整個網路的交通樞。此次Bot Management功能檔異常導致代理模組崩潰後,所有流量都無法被正確處理,系統只能回傳5xx錯誤,造成所有建置在Cloudflare上的客戶同步受影響,形成全球性的大規模中斷事件。
從開始部署權限變更(UTC 11:05)、發生錯誤(11:28),一直到Cloudflare抓到真正的原因(13:37),大約耗費了兩個半小時,接著Cloudflare即介入以停止產生與發布新檔,14:30即恢復大多數的服務,一直到17:06才完全復原。
Cloudflare表示,雖然事件的起因只是例行性的資料庫權限調整,但影響層面遠超預期。他們強調,這次故障並非遭受外部攻擊,而是內部多個系統環環相扣,使一個功能檔的異常翻倍一路擴散到代理系統,最終導致全球性流量中斷。
Cloudflare坦承,這是自2019年以來最嚴重的一次全網停擺,且對依賴Cloudflare的網站與應用造成實質影響,公司將全面檢討模組依賴、設定檔驗證、以及錯誤處理流程;未來也將強化相關機制,包括對所有內部自動生成的設定檔加入更嚴格的檢查、建立更多可立即生效的全域停用開關、並避免除錯與觀察系統在事故中額外壓垮伺服器。
此外,該公司也將重新審視核心代理模組的失效模式,確保即便其中一個子系統異常,整體流量仍能以降級模式安全維持。
熱門新聞
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2025-12-31
2025-12-31
