今年9月底,韓國國家資訊資源管理院(National Information Resources Service,NIRS)的資料中心發生嚴重的火災,導致韓國政府將近1/3資訊服務系統停擺,還造成大量公務資料損毀。

雖然韓國官方尚未提出正式調查報告,不過從目前官方訊息與各界評論,我們可將這次火災事故,歸因於3項顯而易見的疏失,這些疏失彼此連環相扣,共同導致嚴重後果。

第1層疏失,是逾期使用UPS鋰電池,若依原廠保固週期定時汰換電池,或許根本不會發生這起火災。

第2層疏失,是NIRS引進基於鋰電池的UPS,但未同步採取足以因應鋰電池風險的資料中心架構與維運措施,以致鋰電池失火時,未能有效控制災情。

第3層疏失,是NIRS備份備援機制不足,當大田資料中心因火災而關閉服務時,未能由備援系統及時接替,或透過備份迅速還原。

前述3個環節,若有其一能發揮作用,便不致造成今日這般嚴重後果。現實中這3層機制卻是接連失效,最終釀成這起導致韓國政府1/3資訊服務癱瘓、遲遲未能恢復的事故,


搶修中的韓國政府線上服務

韓國政府在GOV24政府服務入口網站上,發布的NIRS大田資料中心火災事故復原情況。截至10月20日中午12時,709個系統中已恢復375個,復原率達52.9%。


電池逾期使用

這次火災起火源,是1組LG Energy Solution(LGES)製造的鋰電池,依韓國行政安全部說法,LGES是在2012到2013年間為大田資料中心的UPS提供鋰電池,這些電池早已超過原廠10年保固期,原廠雖曾建議更換,但這些電池還是在今年6月通過NIRS檢查,並繼續使用,最終讓老化的鋰電池釀成巨災。

事實上,NIRS逾期使用設備是個老問題,2023年時便曾因此引發嚴重事故。韓國審計監察院(Board of Audit and Inspection,BAI)在9月29日發布的報告指出,2023年11月發生大規模網路故障,導致189個政府行政資訊系統癱瘓的事故,便是NIRS的路由器老化失效造成。而BAI將逾期使用設備的原因,歸因於預算問題,以致NIRS在2022年調整了關鍵IT設備的汰換週期,將原本的4至5年延長到6至9年,若以舊標準為基準,NIRS恐有1/3設備都已逾期使用。

資料中心因應鋰電池風險能力不足

此次事故發生之初,許多人都認為資料中心UPS不應使用鋰電池。但事實上,鋰電池在當前資料中心UPS架構已有相當比重,而且仍在迅速擴大。依市調機構Frost & Sullivan兩年前的資料,鋰電池在資料中心UPS電池中的市場份額,在2020年就已有15%,在2025年將成長到38.5%。

挾著體積小、能量高、壽命長、維護相對簡單等優勢,資料中心UPS使用鋰電池已是難以逆轉的趨勢,火災風險疑慮可能會暫時減緩某些單位引進鋰電池的腳步,例如在大田火災事故的同一天稍早,英國網路服務營運商Openreach便發布通知,要求承租的通訊業者移除交換機房中的鋰電池,只允許使用鉛酸電池。

但AI應用對於高容量、高密度的需求,最終還是會促使鋰電池在UPS應用中的持續擴大。

既然鋰電池的應用不可避免,因此,關鍵便在於資料中心的架構能否承受鋰電池失效的風險。回顧過去5年來,全球已經發生過至少3起資料中心鋰電池失火的嚴重事故,包括2021年3月歐洲雲端服務商OVHcloud斯特拉斯堡(Strasbourg)資料中心火災,韓國SK集團C&C板橋資料中心在2022年10月的火災,還有2023年3月法國Maxnod資料中心火災等。因而如何有效控制鋰電池風險,採取適當預防對策,也成為近年來資料中心安全的一大重點。

但如同韓國總統李在明的質疑,不過兩年多前,韓國才發生SK資料中心鋰電池失火、影響數百萬電信用戶的前例,當時韓國政府內外曾有過許多強化資料中心鋰電池使用監管的討論,卻顯然未帶來實質改變,NIRS依然重蹈覆轍。

NIRS大田資料中心的UPS配置架構,缺乏因應鋰電池的物理與熱隔離設計——UPS與伺服器設於同一機房,鋰電池距伺服器機架僅60公分,缺乏可以減緩熱傳播的屏蔽機構,無法避免鋰電池失火後的災情蔓延。

美國電池儲能系統製造商EticaAG對此的評論是:這是一個高科技的基礎設施,安全容限卻很低的典型案例。

除此之外,外界也質疑NIRS的承包商執行更換鋰電池作業時,可能沒有遵照標準的斷電程序。

效能不彰的備份備援機制

在這起事故中,即便電池老化、資料中心失火損毀,如果NIRS的備份備援措施得當,仍能依靠這道最後防線維持線上服務的存續,或是短期內恢復服務,不致對終端用戶造成嚴重衝擊。

舉例來說,1年前的2024年9月10日,阿里雲新加坡資料中心也發生一起鋰電池爆炸起火事故,雖然30多個小時後才撲滅,但阿里雲成功透過備援機制,即時遷移高可用性雲端服務,將對用戶的影響控制在較低程度。

但這次韓國大田資料中心事故中,除了G-Drive外,數百項服務都依重要性分別建置備援、每日或每月備份,卻未能實現服務不中斷、或短期恢復服務的目標。即便是列為最高優先、短暫中斷就會造成重大衝擊,理應透過備援機制維持服務不中斷的第一級系統,頭3天也只能復原其中一半(38個中的21個),顯示備援措施沒有發揮應有作用,更遑論其他優先度較低的系統了。

這次受影響的647個系統中,除了完全損毀的96個需要花費較長時間重建外,其餘系統都只是暫時關閉,並未直接受損,理應可在短時間內重啟服務,但事故發生迄今已過3週時間,仍只有50%左右的系統復原,以現代資料中心關鍵服務的還原時間目標(RTO)標準來看,是不合格的表現,也暗示了實際受損情況,可能比官方公開訊息顯示的更為複雜。

韓國官方其實早已注意到這個問題,審計監察院(BAI)去年的調查報告就指出,NIRS的備援與冗餘措施不足,指示NIRS為所有1級或2級高優先度系統建置災難復原系統,但這項要求顯然並未獲得落實。

缺乏保護的關鍵服務G-Drive

大田資料中心在備份備援機制方面最大的問題,在於G-Drive這項關鍵服務,居然沒建置任何外部備份,脆弱的程度讓人難以想像。

G-Drive這類雲端磁碟服務的後臺底層,應該是大型的儲存叢集,具備承受個別儲存裝置或節點失效的冗餘能力,但無法抵禦火災這類可能涵蓋整個機房或站點的事故,原則上必須搭配遠端複製(Remote Replication),定期將資料複製到異地站點作為備份或備援,最不濟也可透過磁帶備份,再將磁帶保存於隔離機房或建築,從而可在機房或站點層級事故中,保有可用於復原的複本,但是,G-Drive在這方面完全付之闕如。

韓國官方提出的解釋,如G-Drive容量過大、速度過慢,以致無法備份等理由,在我們看來都是不成立的。G-Drive這次損失的858 TB資料,無論以現在或2017年這套系統剛建置時的標準來看,頂多只是中等規模,並沒有大到無法備份的程度,事實上,對許多大型企業或服務商而言,PB等級的資料量都能實施備份。

就算使用效率較低的磁帶進行備份,以目前最新、每卷18TB容量的LTO-10磁帶計算,不到50卷磁帶就能容納這858TB資料,若回推到8年前這套系統建置之初,當時的LTO-8磁帶也只需70餘卷就能容納800多TB資料(而且當時G-Drive總容量應遠低於此)。另外中大型磁帶櫃也能透過多讀寫頭同步作業,提供每小時數十TB的資料吞吐能力,只要制定好分批、分階段的備份計畫,將800多TB資料備份到磁帶是可行的。若使用效能更高、基於磁碟、整合了重複資料刪除功能的備份儲存設備,還能更有效率地處理備份工作。

我們推測G-Drive未建置備份的原因,應該不是技術因素,有可能是建置之初,在經費有限與緊迫時程的雙重壓力下,尚未建置好備份機制,就被迫匆匆啟用所致。而後在營運過程中,又受預算限制與官僚慣性的影響,遲遲未能補上缺乏備份這個漏洞,最終造成機房失火、8年份資料全毀、無法復原的後果。

亡羊補牢的措施

事發的這幾週,已有多位專家與機構針對韓國這次的資料中心火災事故,提出種種改善建議,我們總結起來,可以歸納為這兩點:

首先,是資料中心的安全設計,必須要因應鋰電池的引進而調整。

在法規與政策上,可參照建築儲能系統的固定式鋰電池安全規範(如美國NFPA 855標準),規範資料中心的鋰電池應用,明確規定鋰電池安裝、使用、檢查與壽限管理,承包商與相關人員也須接受管理與處理鋰電池的培訓。

在實務上,Uptime公司建議應避免採用分散式UPS架構(即將電池分散配置在個別機架內),Everest Group機構、EticaAG、Uptime等廠商都強調隔離鋰電池的必要性,也就是將電池集中設置於獨立防火區域加以隔離,隔離區域有足夠的耐火極限,與其他設備保持足夠安全距離,並配備即時電池監控系統,以及引進針對鋰電池的專用滅火系統。目前市場上已有一系列針對鋰電池的防火抑制技術與產品,例如浸沒式電池技術或持續冷卻系統,中和有毒氣體的系統等。

其次,是資料中心關鍵服務的分散化。有鑑於大田資料中心1間機房失火,即導致數百項政府關鍵服務中斷,凸顯了集中式設施的弱點,如IDC便認為集中式設施雖能帶來經濟規模效益,但風險也集中,而分散式架構則能增強彈性並減少單點故障,建議分散資料中心位置,以降低區域風險,並結合模組化與移動式資料中心技術,來提供靈活配置與快速復原能力。

總的來說,這次事故儘管衝擊巨大,但我們應該學到教訓,並將其視為重新檢視資料中心架構的契機,以迎接將全面到來的鋰電池UPS時代。


近年全球資料中心重大鋰電池火災

 時間  2021年3月9日至10日

 地點  OVHcloud斯特拉斯堡資料中心

 影響範圍  SBG-2資料中心全毀,鄰近SBG-1資料中心三分之一的機房受損,相關服務中斷超過兩週


 時間  2022年10月15日

 地點  韓國SK集團C&C城南市板橋資料中心

 影響範圍  電氣設備室受損,關閉3.2萬臺伺服器,Kakao與Naver相關電信與網路服務中斷


 時間  2023年3月28日

 地點  法國Maxnod聖特里維耶-敘爾穆瓦尼昂資料中心

 影響範圍  資料中心與設備全毀,需要徹底重建,當地網路服務中斷


 時間  2024年9月10日至11日

 地點  阿里雲新加坡可用區C資料中心

 影響範圍  部分雲端服務間歇性中斷


 時間  2025年9月26日至27日

 地點  韓國大田市國家資訊資源管理院資料中心

 影響範圍  資料中心5樓全毀,其餘樓層部分受損,647個政府線上服務關閉

資料來源:iThome整理,2025年10月

熱門新聞

Advertisement