雙鴻科技花了4個月時間,於2016年訂定了企業持續營運計畫,後續再進而訂定災難復原計畫,提前為各類突發情況預備對策。

圖片來源: 

雙鴻科技

武漢肺炎(COVID-19)疫情持續延燒,製造業也遭受衝擊。面對突發狀況時,企業平時是否落實持續營運計畫的規畫工作,顯得更為重要,身為2千大製造業的雙鴻科技,回顧自身建立企業持續營運計畫(BCP)的機緣,揭開了製造業IT應變作法的神秘面紗。

「若大型主機壞掉,資訊團隊需多少時間才能還原設備和系統?」雙鴻科技資訊室協理林伯勳回想2015年一次簡報會議上,董事長向IT團隊提出了這個問題。經資訊團隊評估後發現,還原硬體設備和系統約需半個月時間。

雙鴻從2007年開始落實備援機制,但只限在地的單機備分與備援,沒有建立異地備援機制。林伯勳表示,不像PC設備可直接購得來復原,大型主機若是壞掉,需先向廠商訂購設備、等廠商將機器送到位,並待機器架設完成,才可進行系統還原的工作。

以散熱模組起家的雙鴻,每年全球出貨量都名列前茅,並無法容忍系統中斷半個月。一旦關鍵系統像是ERP中斷,就會全面影響營運,造成嚴重的損失,且雙鴻舊有備援機制的系統還原演練,只限各套系統自身的備份還原動作,未將企業整體的業務架構納入考量。林伯勳指出,若有災難發生,雙鴻並無法掌握會受波及的業務範圍,以及業務將受影響的程度及時間。

全面盤點業務架構和IT系統,以訂定BCP預備災難對策

經過該次模擬評估,雙鴻認為系統中斷造成的災難,不可忽視,於是,全面盤點了業務架構和資訊系統,花了約4個月的時間,以滿足客戶的交付需求為目標進行規畫,於2016年訂定BCP,涵蓋了各特別事件包含地震、颱風等天災,還有公用事業供應中斷、勞力短缺、關鍵設備故障,以及與資訊部最切身相關的IT系統損壞等情況。

在這份規範中,雙鴻詳列了各部門面對各種可能的突發性事件,需肩負的職責和握有的許可權,並針對各類特別事件明列運作準則,以及因應對策,其中包含IT系統發生損壞時,像是:內外網路斷線、應用軟體損壞等,各部門負責人須立即提報問題,由IT工程師確認處理,而若修復時間較長,各部門負責人需通知銷售服務中心,以通知客戶並協商對應方法。

林伯勳也提及如何從資訊角度看BCP,他認為,聚焦的部分應是IT如何支援企業持續營運。首先,以企業整體營運為基礎,評估哪些攸關企業持續營運的項目與IT有關;接著,評估這些項目會影響的層面,規畫並訂定對策和規範;下一步,才進而針對突發事件對資訊系統造成的衝擊,訂定災難復原計畫(DRP)。

DRP可視為BCP的關鍵環節,為訂定DRP,雙鴻從4大面向分析業務架構,剖析BCP,包含了風險因素、業務關鍵性分析、IT現況分析和技術恢復分析,從而可獲得3項分析結果,分別是:災難恢復時間目標(RTO),也就是雙鴻可容許服務中斷的時間;以及災難復原點目標(RPO),指當雙鴻服務復原後,取得的恢復資料對應的時間點;還有IT可行性分析。

雙鴻再以這3項結果為基礎,訂定DRP,以規範復原動作如何推展,內容包含了資料備份與還原應遵循的步驟,還有業務持續性的步驟,以及資訊災難等級說明、資訊系統回復等級等。

以業務持續性步驟為例,首先,他們從評估受災等級和狀況開始,標準包括災難破壞情況、業務影響程度、機房重建選址,以及挽救的設備清單和測試情況;下一步,公司會對外發布受災聲明,說明業務影響及IT損壞情況;而後,他們將制訂復原實施方案,一步一步重建資訊環境和系統,從重建資料中心、網路系統,到重建生產系統,再經過系統全面測試,最後,系統才可全面復原執行。

另外,雙鴻依災難對資訊系統的影響程度,將災難分為下列四大等級,而各層級有不同的行動準則。第一級,也是對系統影響最大的情況,當重大災難導致系統全面無法執行,同時,資訊系統場域毀損,導致人員無法進駐,像是斷電、地震等。這時,雙鴻會切換備援系統,並於IDC機房設立臨時處理中心,讓IT人員轉移,此外,通知協力廠商進行復原。

第二級則是當災難造成部分系統無法使用,而人員仍可進入資訊場域辦公,像是ERP中斷,但人員電腦可上網。對此,雙鴻會切換備援系統因應,並通知廠商復原。

第三級為人員電腦大規模無法使用,像是個人電腦遭遇病毒感染,影響電腦自身、系統等運作,嚴重甚至可能危及整個公司的營運。因應此情況,雙鴻IT人員會協助復原,隔離受影響的資訊範圍,阻絕災害擴大。最後,第四級為人員硬體設備發生問題,像是程式異常,造成人員無法操作業務,雙鴻IT團隊則會協助修復。

除了災難分級對策外,雙鴻在DRP中,也依系統對公司營運的影響程度,系統是否有可替方案,以及回復速度將衍生的成本等因素,以4大等級訂定系統的回復時效。

第一等級為會造成企業的業務嚴重損失的系統,包含ERP、郵件系統、網路等,系統回復時效為4小時;第二級為會影響企業長期營運,並影響人員作業效率的系統,包含PLM、BPM等,最遲要在3天內回復。林伯勳指出,BPM若中斷,電子簽核流程可使用紙本代替,再透過郵件系統傳遞。

第三級則為影響單一廠區人員作業的系統或設備,像是MES、印表機等,回復時效加長為3至7天。林伯勳表示,MES系統分散於各地工廠內,且若中斷可改採手動報工,不影響產線的生產作業。第四等級是會影響個別人員作業的設備或系統,例如,個人電腦、筆電等,回復時效可大於7天。

因應DRP中訂定的資料災難備分與復原準則,雙鴻於2016年也著手建立異地備援機制,將屬於第一級復原時效的系統,列為異地備援對象,並選擇了IDC機房作為備援場所。林伯勳提到,當時曾考慮租用海外機房,後來他們考量管理便利性,像是進行還原演練需至機房做設定,而選擇了在臺的機房,不過他提到,考量災害威脅,該機房與自有機房位處不同區域。

DRP隨業務影響分析結果調整,以符合企業持續營運的需求

林伯勳強調,DRP非固定不變的辦法,而是隨著RTO、RPO和IT可行性分析結果的變動,而進行調整,再依新復原點的定義,重新進行系統測試及演練,最後,再進行系統維運。

然而,百密總有一疏,就在BCP訂定完成後的同年9月,中度颱風梅姬侵襲臺灣,造成全臺破百萬戶停電。位於新北市的雙鴻也是受災戶之一,停電約半天,導致其系統全面中斷,全球業務都受波及而停擺。林伯勳表示,以郵件系統造成的影響最劇,少了該系統,人員無法聯繫各地客戶,且當時該系統非異地備援的對象。

大停電讓雙鴻發現郵件系統的重要性,事後重新進行業務影響分析,而該系統的RTO和RPO皆提升,雙鴻進而調整DRP,來提升該系統的回復等級。郵件系統因而從原先需8小時復原,屬第二等級,縮短為現今4小時內復原,屬第一等級,並成為異地備援的對象。

除此之外,雙鴻在2017年翻新ERP時,也重新檢討了既有的備援計畫,進而調整還原演練的流程,訂定了新的DRP。面對當前的武漢肺炎(COVID-19)疫情,雙鴻甚至重新檢討了BCP,納入遠距工作機制使用VPN的抗疫對策。文⊙黃郁芸

 相關報導  武漢肺炎長期抗疫怎麼做?


Advertisement

更多 iThome相關內容