Cloudflare故障6小時，波及ChatGPT及X等服務

背景圖片來源／Yamu_Jay on pixabay

美國網路基礎設施業者Cloudflare在世界協調時間（UTC）周二（11/18）早上11時許發生故障（約是臺灣時間11/18晚上7時許），原本內部以為遭到大規模的分散式服務阻斷（DDoS）攻擊，結果發現是變更資料庫系統權限的一系列操作所觸發的。此一故障延續約6小時，一直到臺灣時間11/19凌晨1點多才恢復正常。Downdetector顯示Spotify、Facebook、Anthropic、X、OpenAI與AWS等服務，在Cloudflare事故同一時段出現大量使用者回報，雖無法確認因果關係，但時間重疊，推測可能受到牽連。

成立於2010年的Cloudflare所提供的服務，包括內容傳遞與效能、網路安全、邊緣運算與開發，以及企業雲網路服務等，標榜可讓全球網站、應用及企業網路更快也更安全，它在全球數百個城市部署邊緣節點，為目前涵蓋範圍最廣的網路遞送與安全平臺之一，許多網站的流量都會先經過Cloudflare才到達使用者。

Cloudflare很快公布了此次意外的始末，表示他們在UTC 11:05於ClickHouse資料庫上部署了一項權限更新，讓使用者能顯式看到底層資料庫r0的欄位資訊。然而，Bot Management功能檔的生成查詢並未過濾資料庫來源，更新後同時抓到default與r0兩份相同欄位，導致功能檔內容倍增。

功能檔在全網傳播後，代理模組（FL/FL2）因其特徵數量超過預先配置的上限而發生錯誤並崩潰，使得全球自UTC 11:20起出現第一波伺服器錯誤（HTTP 5xx）。

Cloudflare的核心代理模組（FL/FL2）是所有HTTP流量的共同入口，無論是網站、API、登入驗證、Workers、CDN或Turnstile，使用者的每一個請求都必須先經過這個代理層，再依序套用Bot Management、WAF、防火牆與快取等模組。因此，代理模組相當於Cloudflare整個網路的交通樞。此次Bot Management功能檔異常導致代理模組崩潰後，所有流量都無法被正確處理，系統只能回傳5xx錯誤，造成所有建置在Cloudflare上的客戶同步受影響，形成全球性的大規模中斷事件。

從開始部署權限變更（UTC 11:05）、發生錯誤（11:28），一直到Cloudflare抓到真正的原因（13:37），大約耗費了兩個半小時，接著Cloudflare即介入以停止產生與發布新檔，14:30即恢復大多數的服務，一直到17:06才完全復原。

Cloudflare表示，雖然事件的起因只是例行性的資料庫權限調整，但影響層面遠超預期。他們強調，這次故障並非遭受外部攻擊，而是內部多個系統環環相扣，使一個功能檔的異常翻倍一路擴散到代理系統，最終導致全球性流量中斷。

Cloudflare坦承，這是自2019年以來最嚴重的一次全網停擺，且對依賴Cloudflare的網站與應用造成實質影響，公司將全面檢討模組依賴、設定檔驗證、以及錯誤處理流程；未來也將強化相關機制，包括對所有內部自動生成的設定檔加入更嚴格的檢查、建立更多可立即生效的全域停用開關、並避免除錯與觀察系統在事故中額外壓垮伺服器。

此外，該公司也將重新審視核心代理模組的失效模式，確保即便其中一個子系統異常，整體流量仍能以降級模式安全維持。

熱門新聞