圖片來源: 

臺灣世曦工程顧問公司

臺灣上周發生20年以來最大規模的815全臺大停電,臺灣不少大型及中小型企業的主要機房設置地點,都在這波受影響的停電區域。記者也查證主要金融、電信及科技業者,所幸,多數企業機房或資訊系統,並沒有受到太大影響。然而,面對突如其來的無預警斷電,企業機房的緊急應變措施是什麼?IT人員又該怎麼應對?復電後的檢查及復原的作業程序或步驟又是什麼?我們也請教了在機房設計及工程規劃擁有豐富經驗的臺灣世曦資訊系統部副理張智欽,親自傳授他多年站第一線的緊急應變之道。

台電分區輪流停電,企業機房恐陷多次輪停的斷電危機

張智欽表示,這次台電全臺大跳電遇到的情況,和以前很不一樣,除了是無預警斷電外,因為修復電力時間較長,沒辦法一次全面供電,所以還採取分區輪流停電的措施。如果企業IT主要機房地點剛好設在輪流停電區的話,整晚就可能停到1輪以上。這是大部分企業IT以前很少會遇到的停電情況。

台電無預警停電時,企業機房的緊急應變措施,通常最先想到的緊急發電來源,就是UPS不斷電系統和靠臨時的發電機供電。不過張智欽表示,一般企業機房常用規格的UPS設備,通常設計成可提供15分鐘的緊急供電時間,這段關鍵保命的供電時間,對於沒有發電機的企業IT來說,如果只是遇到一次性的短暫停電,UPS電力通常還可以撐得住,「但當停電次數不只一次時,只有15分鐘到底有沒有辦法支撐到兩次的停電,就不一定了。」他說。

張智欽也以這次分區輪流限電為例,假如一家企業機房的資訊系統重新開機和關機,各自需要15分鐘的時間,在台電第一次停電時,UPS先自動投入運轉,等到恢復市電後,IT人員如果急於馬上要讓資訊系統重啟,這時UPS剩於可供給的電量已經非常少(可能不到5分鐘或更短)時,馬上又停電,要關機時間就會來不及,甚至「最壞的情況,就是資訊系統才開到一半,馬上又要關機,這時,很多資訊系統可能就會出現問題,這是最應該要避免的。」張智欽提醒,這是IT人員在UPS設計和程序上必須要特別注意,也是許多企業IT會疏於考慮的部分。

張智欽建議,企業機房UPS設備的電池容量,最好是可以設計到能支撐30分鐘以上,以便於預留有足夠的電力,讓IT人員有充裕的時間開完機再關機。

面對無法預期的斷電,UPS電池容量設計最少要能夠支撐30分鐘

企業機房UPS電池容量要設計多少才夠用,張智欽的建議是,最好可以設計到能夠支撐30分鐘以上,以便於預留有足夠的電力,讓IT人員有充裕的時間開完機再關機。即使是已經於機房設置獨立發電機的中、大型企業,他也建議最好將電池供電時間提高到30分鐘,他解釋,這是因為,停電發生時,難保不會發生類似發電機無法自行啟動的時候,這時要改用人工的方式,由負責的IT值班人員到達現場將發電機手動開啟,這段時間也要靠UPS來支撐。「若UPS沒有足夠的電力,可能就沒辦法撐到將發電機重啟。」

若企業IT預算有限,而無法針對所有設備提供一次全面性的UPS供電保護,張智欽表示,則可退一步針對重要的資訊設備,來提供額外供電保護,像是可以採取雙迴路供電保護的作法,在主要共用UPS之外,另針對重要系統所在的機櫃配置專屬的UPS,以便在共用UPS電力不夠用時,還有另一個備用的UPS能繼續接手供電,確保重要設備可以繼續正常運作。

待恢復電力之後,應優先讓UPS充電,切勿貿然逕行開機

企業機房對外供電突然斷電時該如何應變,張智欽指出,在UPS持續運轉可供電力時間內,第一件要做的事,就是先以正常程序將所有主機關閉,待供電穩定時再將主機開啟。若無法預期何時會有下一次停電,或估算所需輪電最少一次以上時,張智欽建議,待恢復電力後,IT人員應優先讓UPS充電(至少充電到可支撐到下次斷電時系統正常的開關機),若UPS沒有足夠的電力,就不要貿然逕行開機,否則隔沒多久又遇到斷電時,就容易會發生UPS電池電量不夠用,而沒有足夠時間,來不及將系統正常關閉。

至於如果是比較常見、可預期的停電時,張智欽則建議,在市電還沒切斷前,就可先提前以正常程序將所有主機關閉,而不需要動用到UPS,只有在真正需要時才將UPS投入。

須定期完成Windows update更新,避免關機等待

張智欽還提到,另一個與資訊系統關機程序息息相關,但很多IT主管都常會忽略的問題,就是沒有定期完成所有的Windows update更新。他進一步說明,這些沒有按時更新Windows系統的資訊設備,通常會排定在設備下次重啟時進行更新,若是沒停電時還好,一旦遇到機房突然斷電,當下就只能靠UPS供電支撐時,這時IT人員要關閉資訊設備,就可能會遇到要求須等待Windows update下載更新完畢後,才能關完機的情況。

張智欽建議,企業IT平時就要養成定期完成Windows update更新的習慣,以避免遇到無預警停電時,還需要耗費等待系統更新的時間,UPS撐不住時就可能會導致無法正常關機。

復電後的設備重啟程序,網路優先,接下才是資訊系統

市電復電再將UPS充至可供下次用電之後,接下來該如何依序復原設備。張智欽建議,在復原程序的作法上,IT人員應優先檢測網路設備,先確認對內、對外網路都恢復正常後,接下來才是檢查資訊系統的狀況有無異常(如硬碟是否故障、重要資料有無遺失等..)。他也說明,與其他資訊系統相比,網路設備因停電重啟故障發生的情況較低,所以可以先將網路設備開啟,再來才是依各企業SOP,來逐一將資訊系統開機。另外,檢測過程中,若有遇到硬體故障的情況,則可趕緊與委外或維護廠商聯繫,馬上派人來協助處理。

如果不幸UPS撐不住,來不及將系統正常關機該怎麼辦?

張智欽也表示,若是不幸遇到UPS撐不住,來不及將系統正常關機時,恢復市電後的第一件事,還是一樣先等待UPS充電,再來才是開始檢測設備。他特別提醒,這時候千萬不要急著馬上將設備開啟做檢測,因為這時,部分設備可能已經因為不正常關機而產生問題,例如硬碟受損等,「要是復電後,IT人員馬上趕著做設備檢測,萬一很不幸又遇到停電時,恐怕造成的損害,只會更加嚴重。」

事前要有充足演練準備,而不是臨陣磨槍

只有當發生停電時,才想到要應對已經來不及,張智欽強調,事前也要有充足的演練,像是針對發電機組,必須定期進行有載和無載測試,「我們的作法是每季定期都會有一次無載測試演練,且每年有載測試最少一次」,以確保發電機能在停電時,可以真正派得上用場。

另外針對企業機房內的UPS電池使用,張智欽表示,最好是定期檢測,或是按時更換服役已久的電池,他也建議,理想是3年可以更換一次電池,他解釋,這是因為電池使用壽命有限,一旦電池太久沒換,以致於沒辦法在停電時提供可靠的電力來源供電,造成的後果就是,資訊系統因為不正常停機發生故障的風險大幅升高。

雖然臺灣世曦主要機房,並不設在這次台電停電的主要地區,所以並沒有遇到輪流限電的情況,不過張智欽也傳授他們的機房設計思維。

張智欽表示,在當初設計或規劃機房時,他們就已經事先預留設置UPS和獨立發電機組的空間,並將各種可能遇到的斷電情況,加入設計UPS和發電機的考慮環節,像是將UPS供電設計成至少可以提供到45分鐘,且機房臨時供電的發電機系統也與大樓分開獨立一套,還備有自己的儲油槽,即使是發生無預警停電,或分區輪流限電的情況,也可以馬上投入。

張智欽還表示,他們平時還會針對UPS及電源監控管理的PDU設備,依不同資訊設備來分群組,以便於在停電發生時,可透過系統自動化的方式,依據原先設定好的群組分類,依序將不同設備自動關閉,或待電力恢復之後,將設備自動重新啟動,可以做到停機開機的全程自動化,而不需要人力介入。

 

上圖為臺灣世曦機房PDU設備的啟動延遲設定畫面,可以根據不同資訊設備設立群組,並採取不同的延遲啟動時間,以便於在市電恢復之後,能依據原先設定好的群組分類,自動將不同設備依序啟動。

 

 


Advertisement

更多 iThome相關內容