甫於6月20日登上紐約股市的聊天協作程式Slack,在太平洋時間(PDT)6月28日的早上4:30(台灣時間當天晚上7:30)因數個伺服器當機,造成許多訊息的傳遞延遲或出現錯誤,一直到當天晚上7:20(台灣時間隔天上午10:20)才恢復正常

根據Slack的說明,當天是因某些伺服器無法運作,造成任務處理系統的效能下滑,使得通知、連結展開或張貼訊息等作業延遲或出現錯誤,一開始影響了10~25%的任務,到了上午10點就把錯誤率降低至5%。

然而,屋漏偏逢連夜雨,下午1:05時,系統發生了另一個問題,造成伺服器過載並遺失大量的使用者連線,重新連結又加重了伺服器負載,使得回復連結的速度變慢,一直到下午1:36才讓所有用戶重新連上線。

根據Downdetector基於使用者回報的統計,多數Slack用戶遭遇到連線問題,其它則是傳訊與傳送檔案出現延遲或錯誤,影響了包括美國、日本及巴西等全球市場。

所有的服務都在當天晚上7:20時恢復正常,算一算Slack系統不穩定的狀況持續了近15個小時。Slack除了向用戶致歉之外,也正部署各種預防措施來避免類似的意外再度發生。


Advertisement

更多 iThome相關內容