為了防範事件重演,Atlassian承諾將改進大規模事件發生的SOP(如上圖所示,圖片來源/Atlassian),並且強化多團隊協同的人員訓練及工具。

針對4月初發生的斷線事件,Atlassian上周發布事後說明,指受影響的客戶來到775家。

這事後報告說明斷線事件不是出於網路攻擊或被駭,而出於維護團隊溝通及系統設計問題。事由是Jira Service Management及Jira Software共用的「Insight – Asset Management」獨立App去年整合到Jira Service Management中,因而必須刪掉舊版獨立App。但在執行時發生2項錯誤。一是請求刪除App的團隊給成了刪除整個雲端網站的Site ID,而非該App的ID,但Atlassian標準的同儕審查(peer-review)並未檢查到給出的Site ID。第二項錯誤是,刪除網站或App的API並未能在接到Site ID(或App ID)時發出警告並確認,而逕自刪除了網站。

種種烏龍造成的結果是,在世界協調時間(UTC)4月5日早上7:38到8:01分775家客戶的883個網站立即被刪除,占其20多萬客戶的0.04%。2周前Atlassian說被刪除的網站為將近400個。

Atlassian表示,事件發生時他們不是茫然無知,而是一開始就知道有哪些網站受影響。他們也知道第一要務是和網站負責人取得聯繫,不幸一些客戶的聯絡資料遭到刪除,這使得Atlassian無法立即聯繫上客戶,客戶也無法透過支援工單通報。

整個斷線歷時14天,在搶修後第一批客戶於4月8日回復上線。Atlassian於4月18日說明所有受影響的客戶均已恢復服務。該公司強調沒有一家客戶損失的資料超過5分鐘,在回復服務期間,99.6%的雲端服務客戶運作均未有任何中斷。

為了防範事件重演,Atlassian也修正了管理作業。第一是所有系統將禁止全網站刪除,或採用各種防護措施,包括階段性部署,以及回復計畫。未來全球各站點都會導入「軟刪除」(soft delete),避免刪除客戶資料及metadata。

其次他們會擴大實施災難復原(disaster recovery,DR),以便在多站點、多產品刪除事件發生時自動啟動回復,加速回復時間目標(recovery time objective,RTO)。Atlassian也將改進大規模事件發生的SOP(standard operating procedure)並且強化多團隊協同的人員訓練及工具。最後他們也將建立多管道通報,加速事件確認及建立客戶聯繫,並期許在1小時內發布公開說明。


熱門新聞

Advertisement