脆弱的IT需要縝密而周延的保護

談到資訊安全，通常會提到三大要素：機密性（Confidentiality）、完整性（Integrity）、可用性（Availability），也被稱為資安鐵三角CIA（取自三個詞彙的字首），前兩者在典型的資安新聞報導最常被提及，可用性多半被歸類在IT營運層面，近年來，由於全球對於數位化系統與服務的高度依賴，這方面的議題越來越受到重視，因為每年相關事故頻率逐漸增加，IT服務停擺的衝擊也日益巨大。

回顧過去十多年臺灣曾發生的這類事件，最令人印象深刻的有哪些？首先，2013年是方電訊總部大樓機房失火，造成全臺網路癱瘓；2017年因中油大潭發電廠人員操作不當，發生815全臺大停電，許多企業資料中心因UPS無法支撐長時間停電、電池老化或未依序關機，導致機房停擺、資料損壞，嚴重影響營運；2021年5月台電興達發電廠又因人員操作不當導致停機，緊急實施分區輪流停電，企業與中小型資料中心面臨斷電風險，需仰賴UPS與發電機維持營運。

2022年行政院中央災害應變中心的電信機房起火，2023年調查局廉政大樓失火，起火點為資通安全處；2024年2月教育部位於科技大樓的機房出現電力設備熔斷，啟動消防機制，導致國家圖書館、科教館等網站無法連上，2024年9月中華電信桃園機房因連日大雨，抽水泵過熱起火，燒毀部分光纜，不僅影響桃園地區部分網路通訊，也導致華南銀行的網銀、行動銀行App等系統發生大當機。

更早之前也有嚴重影響企業IT運作的事故，如1999年臺南左鎮輸電鐵塔倒塌而發生的729大停電、921大地震導致全臺大停電、2001年納莉颱風造成許多公司機房淹水。

由上述事故可見，資料中心或機房營運往往受外在環境變化的影響，如缺電、斷網、淹水。根據資料中心研究與認證機構Uptime Institute去年發布的停機分析報告，電力仍然是導致重大停機事故的主因，2024年有54％的企業表示，這是近期資料中心事故或服務停擺的最大因素，其次是散熱（13％）、網路（12％）、IT軟硬體系統（11％）、代管業者（3％）、火災（1％）。

若是過去三年造成重大衝擊的IT服務相關停擺事故，網路連線的因素占30％，IT系統或軟體類型的原因成長至23％，其次依序是電力（18％）、公有雲、SaaS等第三方IT服務（8％），散熱（7％），Uptime Institute認為IT系統或軟體造成IT服務停擺的比例增加，可能的理由是IT與網路的複雜度，導致變更管理與組態設定錯誤造成問題。

若只看網際網路的IT服務，網路與資安大廠思科旗下的ThousandEyes，最近發表2025年十大IT服務停擺事故的分析報告，顯示多起因軟體操作與設定的當機事故相當嚴重，如Slack在2月發生服務中斷持續9個小時的事故，AWS在10月發生DynamoDB服務中斷，部分用戶甚至面臨持續15個小時的停擺。

ThousandEyes認為，這些重大事故的發生，可區分為下列幾種類型：如果網路正常運作，使用者卻遇到操作體驗不佳的狀況，問題可能出現在後端；若是橫跨多種管道存取IT服務，卻同時面臨停擺的狀況，問題可能指向某種共享的相依性（shared dependencies）；如果發生間歇的故障，可能意味著部署方式與網路邊緣環境出了問題。

對此，他們建議IT人員應橫跨所有層面進行狀態監控，並理解各自運作的模式，包含時機、相依性、執行與涵蓋範圍，若能充分掌握這些因素，有助於盡量縮小可能導致故障的原因，進而快速找到解決方法。

然而，由於現代IT系統架構的發展趨於複雜與分散，單靠測試來預防所有可能的問題並不務實，因此，ThousandEyes提出的結論認為，應將重點放在如何具備快速偵測與應變的能力，而且要善用分階段部署，並在事故發生時，與可能受到故障影響的人員充分溝通，目標是縮短問題偵測與修復的時間，維持信任與確保IT營運順暢。

此外，企業若要提升事故應變的效率，ThousandEyes也提醒關鍵在於事前就要清楚了解自家系統的架構，熟悉特有的故障模式，如此一來，才能快速解讀問題的症狀，並在服務停擺時，更精確地鎖定要調查的對象。若能掌握這些知識，不僅能加快偵測問題的速度，也能進一步協助規畫緩解問題的策略。

脆弱的IT需要縝密而周延的保護

專欄作者

熱門新聞