提供內容遞送網路、DDoS緩解服務與DNS服務的Cloudflare在世界協調時間(UTC)7月2日下午1點42分(約台灣時間晚上9點42分)發生大當機,一度傳出是遭到駭客攻擊,不過Cloudflare很快便出面澄清,這是定期進行的軟體更新中出現一個配置錯誤所造成的意外。

當天的意外造成許多採用Cloudflare的網站或服務出現502錯誤的狀況,雖然只持續了短短的27分鐘,但Cloudflare的流量最高曾下滑82%,全球都傳出災情。

根據Cloudflare的說明,該站會定期更新網路應用程式防火牆(Web Application Firewall,WAF)的規則,這些規則是用來改善在面臨網路攻擊時封鎖JavaScript的能力,它們通常會先於模擬模式中測試,確認無誤後再部署至生產環境,且WAF規則是一次部署至全球,而非漸進式的。

然而,其中一個規則所含的正規表示式,造成Cloudflare全球伺服器的CPU使用率衝上100%,使得那些由Cloudflare代理的網域出現502錯誤(閘道不正確),也讓Cloudflare面臨了前所未見的CPU衰竭事件。

Cloudflare大約花了20分鐘釐清問題的癥結,決定先行砍掉全球伺服器上的WAF規則集,才在UTC時間下午2點09分時(約台灣時間10點09分)讓流量恢復正常。

Cloudflare坦承此次意外的發生,源自於測試程序不夠周延,計畫同時變更測試及部署程序,以避免以後再發生類似的事件。


Advertisement

更多 iThome相關內容