Atlassian斷線事件影響775家客戶

為了防範事件重演，Atlassian承諾將改進大規模事件發生的SOP（如上圖所示，圖片來源／Atlassian），並且強化多團隊協同的人員訓練及工具。

針對4月初發生的斷線事件，Atlassian上周發布事後說明，指受影響的客戶來到775家。

這事後報告說明斷線事件不是出於網路攻擊或被駭，而出於維護團隊溝通及系統設計問題。事由是Jira Service Management及Jira Software共用的「Insight – Asset Management」獨立App去年整合到Jira Service Management中，因而必須刪掉舊版獨立App。但在執行時發生2項錯誤。一是請求刪除App的團隊給成了刪除整個雲端網站的Site ID，而非該App的ID，但Atlassian標準的同儕審查（peer-review）並未檢查到給出的Site ID。第二項錯誤是，刪除網站或App的API並未能在接到Site ID（或App ID）時發出警告並確認，而逕自刪除了網站。

種種烏龍造成的結果是，在世界協調時間（UTC）4月5日早上7:38到8:01分775家客戶的883個網站立即被刪除，占其20多萬客戶的0.04%。2周前Atlassian說被刪除的網站為將近400個。

Atlassian表示，事件發生時他們不是茫然無知，而是一開始就知道有哪些網站受影響。他們也知道第一要務是和網站負責人取得聯繫，不幸一些客戶的聯絡資料遭到刪除，這使得Atlassian無法立即聯繫上客戶，客戶也無法透過支援工單通報。

整個斷線歷時14天，在搶修後第一批客戶於4月8日回復上線。Atlassian於4月18日說明所有受影響的客戶均已恢復服務。該公司強調沒有一家客戶損失的資料超過5分鐘，在回復服務期間，99.6%的雲端服務客戶運作均未有任何中斷。

為了防範事件重演，Atlassian也修正了管理作業。第一是所有系統將禁止全網站刪除，或採用各種防護措施，包括階段性部署，以及回復計畫。未來全球各站點都會導入「軟刪除」（soft delete），避免刪除客戶資料及metadata。

其次他們會擴大實施災難復原（disaster recovery，DR），以便在多站點、多產品刪除事件發生時自動啟動回復，加速回復時間目標（recovery time objective，RTO）。Atlassian也將改進大規模事件發生的SOP（standard operating procedure）並且強化多團隊協同的人員訓練及工具。最後他們也將建立多管道通報，加速事件確認及建立客戶聯繫，並期許在1小時內發布公開說明。

熱門新聞