昨日下午,Google Cloud雲端服務的網路連線出現大災情,事故1小時後Google才找到原因,原來是負載平衡設備連線出錯,但一直找不出解決辦法,直到18小時後,Google祭出最後手段,將設定恢復到前一版,才將問題排除,但已影響到美國、歐洲和亞洲多個地區用戶使用。

Google Cloud雲端網路連線出現異常,發生在昨天下午3點52分(美國時間0時52分),Google隨後也馬上派人展開調查,從Google Cloud Status Dashboard網站頁面上也記錄下整起網路連線災情事件的經過。直到事故發生的1小時後,Google才找到問題原因,是因為雲端網路負載平衡設備連線設定出錯,而造成應用程式與後端系統連線出現異常,導致用戶無法正常連線使用。

Google工程人員雖然緊急馬上展開修補作業,但再事件爆發後的5小時還是修不好,而影響所及的區域已經包含Google在us-east1, us-central1, europe-west1, asia-northeast1 以及 asia-east1等多個服務地區,直到18小時後,Google發現問題解決不了,才採取進一步緊急措施,改將負載平衡設定恢復到前一版本配置,才逐步將所有有網路連線問題的區域排除。一直到今天早上11:18分,事件爆發快一天後,Google Cloud服務的網路連線才全面恢復正常。

從Google Cloud Status Dashboard網站頁面上也記錄下整起網路連線災情事件的經過,從臺灣時間8/30下午4點一直到8/31早上11點這段期間,Google Cloud Networking的網路連線就一直出現異常情況。

 

Google沒有解釋原因,不過前不久Google才因為要降低網路延遲,而將可以大幅增加網速的新演算法運用在自家的Google雲端平臺,希望藉此來加快網路速度。

前一周,Google也才因為不小心網路設定錯誤,誤發了錯誤的BGP(Border Gateway Protocol)路由資訊,讓有效網站IP的流量,導向不負責轉發的Google伺服器,等同將這些網站的流量導向黑洞,這也造成日本兩大電信業者NTT和KDDI行動用戶短暫無法正常上網,甚至不少網路服務也大受影響,被迫暫時停止服務。

這次事件也反應出了全球性的大型網路服務公司,如Google等,在網路架構設計上已經具備有全球性規模,若是一個不小心,網路設定配置不當,不只會對自家雲端服務造成衝擊,甚至也可能連帶影響到全球網路的穩定,嚴重更可能造成全球性大規模的網路災情,這也凸顯出,當網路被掌握到少數像Google具全球規模的網路公司手中潛藏的新風險。


Advertisement

更多 iThome相關內容