談到資訊安全,通常會提到三大要素:機密性(Confidentiality)、完整性(Integrity)、可用性(Availability),也被稱為資安鐵三角CIA(取自三個詞彙的字首),前兩者在典型的資安新聞報導最常被提及,可用性多半被歸類在IT營運層面,近年來,由於全球對於數位化系統與服務的高度依賴,這方面的議題越來越受到重視,因為每年相關事故頻率逐漸增加,IT服務停擺的衝擊也日益巨大。
回顧過去十多年臺灣曾發生的這類事件,最令人印象深刻的有哪些?首先,2013年是方電訊總部大樓機房失火,造成全臺網路癱瘓;2017年因中油大潭發電廠人員操作不當,發生815全臺大停電,許多企業資料中心因UPS無法支撐長時間停電、電池老化或未依序關機,導致機房停擺、資料損壞,嚴重影響營運;2021年5月台電興達發電廠又因人員操作不當導致停機,緊急實施分區輪流停電,企業與中小型資料中心面臨斷電風險,需仰賴UPS與發電機維持營運。
2022年行政院中央災害應變中心的電信機房起火,2023年調查局廉政大樓失火,起火點為資通安全處;2024年2月教育部位於科技大樓的機房出現電力設備熔斷,啟動消防機制,導致國家圖書館、科教館等網站無法連上,2024年9月中華電信桃園機房因連日大雨,抽水泵過熱起火,燒毀部分光纜,不僅影響桃園地區部分網路通訊,也導致華南銀行的網銀、行動銀行App等系統發生大當機。
更早之前也有嚴重影響企業IT運作的事故,如1999年臺南左鎮輸電鐵塔倒塌而發生的729大停電、921大地震導致全臺大停電、2001年納莉颱風造成許多公司機房淹水。
由上述事故可見,資料中心或機房營運往往受外在環境變化的影響,如缺電、斷網、淹水。根據資料中心研究與認證機構Uptime Institute去年發布的停機分析報告,電力仍然是導致重大停機事故的主因,2024年有54%的企業表示,這是近期資料中心事故或服務停擺的最大因素,其次是散熱(13%)、網路(12%)、IT軟硬體系統(11%)、代管業者(3%)、火災(1%)。
若是過去三年造成重大衝擊的IT服務相關停擺事故,網路連線的因素占30%,IT系統或軟體類型的原因成長至23%,其次依序是電力(18%)、公有雲、SaaS等第三方IT服務(8%),散熱(7%),Uptime Institute認為IT系統或軟體造成IT服務停擺的比例增加,可能的理由是IT與網路的複雜度,導致變更管理與組態設定錯誤造成問題。
若只看網際網路的IT服務,網路與資安大廠思科旗下的ThousandEyes,最近發表2025年十大IT服務停擺事故的分析報告,顯示多起因軟體操作與設定的當機事故相當嚴重,如Slack在2月發生服務中斷持續9個小時的事故,AWS在10月發生DynamoDB服務中斷,部分用戶甚至面臨持續15個小時的停擺。
ThousandEyes認為,這些重大事故的發生,可區分為下列幾種類型:如果網路正常運作,使用者卻遇到操作體驗不佳的狀況,問題可能出現在後端;若是橫跨多種管道存取IT服務,卻同時面臨停擺的狀況,問題可能指向某種共享的相依性(shared dependencies);如果發生間歇的故障,可能意味著部署方式與網路邊緣環境出了問題。
對此,他們建議IT人員應橫跨所有層面進行狀態監控,並理解各自運作的模式,包含時機、相依性、執行與涵蓋範圍,若能充分掌握這些因素,有助於盡量縮小可能導致故障的原因,進而快速找到解決方法。
然而,由於現代IT系統架構的發展趨於複雜與分散,單靠測試來預防所有可能的問題並不務實,因此,ThousandEyes提出的結論認為,應將重點放在如何具備快速偵測與應變的能力,而且要善用分階段部署,並在事故發生時,與可能受到故障影響的人員充分溝通,目標是縮短問題偵測與修復的時間,維持信任與確保IT營運順暢。
此外,企業若要提升事故應變的效率,ThousandEyes也提醒關鍵在於事前就要清楚了解自家系統的架構,熟悉特有的故障模式,如此一來,才能快速解讀問題的症狀,並在服務停擺時,更精確地鎖定要調查的對象。若能掌握這些知識,不僅能加快偵測問題的速度,也能進一步協助規畫緩解問題的策略。
專欄作者
熱門新聞
2026-01-27
2026-01-27
2026-01-27
2026-01-26
2026-01-28
2026-01-28