面對先前已經有種種的供電不足的限電危機,企業如果沒有事先檢查機房使用的UPS不斷電系統,在面對此次無預警斷電時,將可能造成系統中斷、資料毀損,導致企業無法持續營運的風險。

圖片來源: 

iThome

在8月15日下午將近五點的時候,爆發臺灣能源史上的新一波危機,總計全臺有17個縣市發生大停電,這也是繼日前花蓮和平電塔倒塌,加上夏日尖峰電量負載持續亮紅燈後,又一起新的能源危機事件。

只不過,這次的大停電經過臺電內部調查,主要是因為中油公司在更換供氣設備時,中油或者是委外廠商的工程師因為沒有按照規定的操作程序,導致訊號異常,才造成大潭電廠的天然氣供應中斷,爆發第一~六號發電機組啟動自我防護機制,但也因為監控機制過度自動化,在缺乏適度的複核機制下,導致錯誤資訊不斷放大而無法立刻察覺,以致於造成全臺灣大停電的慘劇。

不論從中油或者是臺電的角色來看,沒有按照標準作業程序(SOP)做事,是事故發生最主要的原因;但若從一般企業的角度來看,面對這種無預警的停電,有多少企業在進行相關的企業營運持續管理(BCM)時,會真正的從營運衝擊分析(BIA)的層面下手,試圖解決這些可能對企業營運帶來中斷風險的風險控制點呢?

臺灣BSI總經理蒲樹盛便坦言,臺灣有許多國營企業甚至是大型企業,至少在十年前就已經針對營運持續管理的議題開始上課,希望提高員工和高階主管對營運中斷的風險更有憂患意識,並進行後續相關的P(計畫)D(執行)C(稽核)A(矯正)等措施,以確保一旦爆發天災人禍可能影響企業營運的事故時,企業都可以依照先前規畫步驟和演練措施,順利度過難關。但他認為,臺灣多數企業面對企業營運持續管理的問題在於,不願意正視哪些風險會對企業帶來營運中斷,更多時候會因為風險發生的機率較小而予以忽略。

企業營運是否中斷,系統備援和資料備份都很重要

企業營運持續管理(Business Continuity Management,BCM)最主要的關鍵是企業針對不可預期的災難,透過事先規畫因應措施並透過模擬相關演練的作法,一旦因為各種天災人禍等災難造成營運中斷時,因為企業先前已經有相關的因應作法,就可以有計畫性的,在時間內逐步回復企業的正常運作。

嚴格說來,企業營運持續管理包含了系統災難備援以及資料異地備份等作為,在早期,單一備援或備份機制的失靈,並不足以構成企業的營運中斷;但是,對於現代的IT人員而言,有許多企業運作早已高度仰賴資訊系統運行時,一旦系統或資料發生任何中斷或受損,許多企業根本無法正常運作。也因此,有越來越多人將系統備援以及資料備份,視為企業營運持續管理最重要的因應措施之一。

從這次的八一五停電事件來看,對於企業IT部門人員而言,當務之急就是確認UPS不斷電系統有沒有正常運作,是否可以在不斷電系統所提供的五分鐘到二小時,甚至更長的緩衝期間,確保公司系統可以正常關機、資料沒有損壞。

發生大停電後,也聽到有許多IT人員紛紛主動加班,就是為了確認公司系統是否能正常運作且資料沒有造成損壞,以確保公司隔天可以持續運作。這對其他非IT部門的公司人員而言,往往很難在第一時間內意識到,原來有一個部門的員工在停電過後,必須要主動加班進行種種的確認措施後,才能夠確保企業在隔天營業時間內,可以正常運作。

對於企業系統運作而言,最關鍵的設備就是機房內的不斷電系統,是否有發揮應該有的功能,不論是額外提供五分鐘甚至是二小時的供電緩衝時間,就足以讓IT人員可以按照正常的程序將系統關機、備份資料,降低系統突然中斷、資料無法儲存等事故,大幅降低企業營運中斷的風險。

由於先前民生用電已經頻頻告緊,IT人員有沒有事先確認,公司使用的不斷電系統能夠正常運作,如果先前相關的確認工作都有落實,面對這次無預警的停電,企業系統和資料的損失,往往可以降到最低。

營運衝擊分析對企業持續營運的重要性,遠遠高於風險值

事實上,在這次停電事件中,仍持續傳出有包括一些高科技製造業者,或者是部分醫院或金融業者,因為停電造成不等的營運損失,這類損失大部分都可以歸納成:企業的產品或服務在提供時出現瑕疵,因此對客戶或使用者,造成不同程度的損害。

若從稽核的角度來看,蒲樹盛表示,不論什麼樣的認證,例如臺灣企業最常見的品質管理系統ISO 9001,如果企業因為沒有按照標準作業程序,執行所有產品製造或提供服務的程序,進而造成客戶或使用者的損失時,這樣的作法都會被驗證機關列為重大缺失,驗證機關甚至會撤銷該企業的品質管理證書。

由此可以推論,這次不論是中油或者是臺電在提供相關的供電服務時,真的是因為沒有按照標準作業程序,導致這次停電事件發生的話,相關的業務單位的確包含在ISO 9001的驗證範圍中,如此重大關鍵的缺失,都可以撤銷該公司的ISO 9001品質管理證書。

如果可以進一步分析,為什麼會發生這樣的意外事件?蒲樹盛建議企業可以認真的回頭檢視,該公司對於營運衝擊分析(BIA)和風險評估(RA)的鑑定,是否為真?也就是說,企業在分析哪些風險發生的機率高,哪些風險對企業營運會帶來比較嚴重的衝擊時,是否是從真實情境來看,而非假造一個虛擬低風險的安全情境,只求書面程序過關即可呢?

舉例而言,像這類的停電事件,就風險發生的機率或許並不高,但停電對企業營運帶來的衝擊卻很高。蒲樹盛認為,臺灣有許多企業誤從風險發生機率的高低,而非從該衝擊對企業持續營運帶來的影響,來看企業營運持能否持續不中斷,也導致許多企業的營運持續管理計畫(BCP),都無法真實呈現企業所面對的風險和衝擊,以致於相關的PDCA形同虛設。

關鍵基礎設施業者應優先落實BCM

臺灣天災人禍也帶來許多停水停電火災水災等災難,都可能造成企業無法營運,所以,近年來,臺灣企業對於營運持續管理的意識也比過往高,許多有制度的公司,開始會強化內部制度,進行各種風險的分級分類,以維持企業可以持續正常營運。

但這次事件看來,中油臺電這類關鍵基礎設施(CI)或者是相關的關鍵基礎資訊設施(CII),已經是許多臺灣企業能否正常營運的「前提」,對這類關鍵基礎設施業者,都應該優先進行營運持續管理的營運衝擊分析(BIA)和風險評鑑(RA)。至少,要能夠做到不斷水、不斷電的情況下,企業能夠從後續PDCA等措施,維持企業正常營運。

蒲樹盛也提醒,所有企業都應該要設法減少並降低企業內的「單一失效點」數量。以這次停電事件為例,中油供氣閥因為距離臺電發電機組設備太近,以致於沒有足夠的時間偵測並發出相關預警,讓一切事情發生的讓人措手不及。

所以說,公司重要的系統和資產絕對不可以放在同一個點,避免因為失誤或風險造成流程停擺、公司運作中止。這也證明,中油和臺電的企業營運持續計畫,必須要能夠搭配其他備援和備份機制,以避免一旦爆發任何突發狀況,中油臺電會因為這個單一失效點而無法持續營運。

企業單一失效點越多、企業越脆弱,因此,在進行營運持續管理時,就必須要做到分散弱點並分散風險。例如,醫院發生火災時候,許多無法行動的病人或者是加護病房等,應該要如何疏散呢?

蒲樹盛表示,有某間醫院看到火災這樣風險對醫院持續營運帶來的衝擊,為了克服這樣的風險,甚至在某些病人不便行動逃生的病房樓層中,事先設計並蓋好一個類似溜滑梯的逃生通道。這樣的解決方案,就是醫院正視如何降低火災對醫院持續營運帶來衝擊的正向作為。

以目前臺灣的現況而言,蒲樹盛認為,關鍵基礎設施業者應該要比一般企業更重視營運持續管理的議題,如何降低各種風險造成營運中斷的發生機率,才是這些關鍵基礎設施業者應該思考的方向。


Advertisement

更多 iThome相關內容