情境示意圖,Photo by Foo Bar on Unsplash

協同軟體Confluence及Jira服務軟體的供應商Atlassian網站4月初斷線使多項軟體用戶無法使用雲端服務,估計還要4月下旬才能完全恢復服務。經過2個星期Atlassian高層上周說明斷線原因,是更新服務過程中團隊溝通及技術失誤造成。

上周的說明中,Atlassian技術長Sri Viswanath表示斷線並非出於網路攻擊,或是系統大規模運行的錯誤,而是關閉舊式軟體時出現操作失誤。Atlassian為了推出Jira 服務管理及Jira 軟體的整合式App,名為Insight – 資產管理,必須關閉客戶網站的舊App。

原有計畫是工程團隊提出要求,提供App的ID,由另一個團隊執行維護script來關閉舊App執行個體。但提出要求的團隊給錯了,給成了整個雲端網站的ID。而執行關閉App任務的團隊,原本應該使用日常維護專用、可回復作業的刪除模式,卻不慎使用了「永久刪除」的模式,後者是用於法規遵循目的的刪除任務。兩項錯誤集合起來,導致將近400家代管在AWS上的客戶網站遭到刪除。

發生斷線事故後,該公司工程團隊必須從備份回復網站。4月5日起,Atlassian是以1次最多60個租戶批次回復。每批完整作業需4到5天,這也使得回復作業大幅拉長。

Viswanath承認Atlassian團隊的回應時間的確未達標準,他們更新為同時進行多個批次作業,以加速服務回復。 此外,過去網站回復是半自動作業,這是因為需要人工驗證每個網站的客戶資料,現在他們也轉向「更為自動化」的流程。

該公司表示,到4月12日為止,所有受影響的用戶中99%的用戶服務已經回復。大部份回復的客戶中,都沒資料損失,但仍然有客戶表示,事件發生前損失最高5分鐘的資料。

根據Atlassian網站,Jira Software、Jira Service Management、Jira Work Management、Confluence、Opsgenie、Atlassian Access、Atlassian Developers、狀態頁等網站仍然顯示有問題。

Atlassian表示,除了加速回復剩下的客戶網站,該公司將提供1對1支援,透過工單每日回報,以及事後報告。


熱門新聞

Advertisement