Google的運算引擎在臺灣時間6月3日凌晨3點25分到7點45分之間發生故障,導致多項Google服務包括Google Cloud、G Suite和YouTube都受到影響,也使得不少使用Google雲端建置的第三方服務無法使用,Google正式說明事件的調查結果,造成故障的原因是,Google錯誤配置多個區域的伺服器,使得網路容量減少一半以上,許多封包被丟棄。

由於Google將原本要應用到單個區域小數量的伺服器配置,錯誤應用到了跨多個相鄰區域的大量伺服器上,導致這些區域的網路容量減少一半以上,而剩餘的網路容量無法負荷這些區域原本的流量,因此造成嚴重的網路壅塞,而Google的網路管理機制自動拋棄了較大且不重要的封包,並優先傳送較小且對延遲敏感的封包,而這也產生少部分服務仍得以運作的不穩現象。

總結來說,這次事件是因為Google錯誤更改配置,才造成雲端服務故障。在事件發生當下,Google工程團隊立刻發現了錯誤,但是因為網路壅塞,反而增加工程團隊修復問題的困難度,因此使得修正錯誤花費的時間遠超過預期。

Google雲端服務故障造成了YouTube觀看次數下降10%,雲端儲存流量減少30%,約影響了1%的活躍Gmail使用者,Google表示約是數百萬的使用者無法收發電子郵件,而對於Google搜尋服務來說,因為使用的頻寬很小,而且在故障發生當下,Google網路將使用者立刻切換到了不受影響的區域,因此用戶頂多只感覺到延遲增加而已。

Google提到,雖然所有服務已經恢復正常,不過他們仍在進行徹底的調查,以了解網路的容量減少以及恢復緩慢的所有原因。


Advertisement

更多 iThome相關內容