重 點
● 電池要定期更換
● 慎選機房位置,不要設在住宅區,以避免發電機噪音與排煙擾民
● 建立雙迴路的不斷電系統,但價格是一般的2.5倍

在農曆年前,2月5日晚上6點20分,中國信託商業銀行的機房發生大當機,導致銀行端信用卡、網路銀行、自動櫃員機、客服中心與臺灣彩券電腦型彩券交易系統等業務服務皆中斷。當時不只是想要領錢的民眾無法使用ATM提款機,由於正值臺灣彩券大樂透開獎前夕,民眾更是大排長龍買不到彩券,所幸中國信託緊急搶修後,在7點20分機房恢復營運,終於讓民眾趕在開獎前買到彩券。

事後中國信託商銀對外發布新聞稿表示,當機原因是不斷電系統(UPS)故障異常。然而,做為備援電力之用的不斷電系統,為何會導致營運中的系統當機,卻令人感到相當的費解。

據一位了解此事件的人士表示,2月5日下午中國信託商銀的機房正在進行停電演練,模擬臺電供電異常時,機房的備援措施能否發揮功效,以確保機房的運作不受臺電跳電或斷電等問題的影響。

這原本是一件好事,一位熟悉機房維運的專家表示,中國信託商銀模擬臺電停電的測試,是非常正確的作法,因為沒有經過實際的模擬演練,就不會知道整個備援計畫的真正問題。

只是不管是執行什麼的演練,都會有風險,演練前都得考慮到風險。


白色建築為中國信託商業銀行機房所在的大樓,由於緊鄰民宅,為避免發電機的噪音與排煙影響其他住戶,所以選擇上班日進行停電演練。

看大圖

當機的關鍵30秒
要模擬臺電斷電的情境,就必須要切斷臺電的供電,進而測試發電機能否如期正常供應電力。

不過,發電機啟動後需要約30秒的時間才能正常供電,也就是說從切斷臺電的電源到發電機能供電,這之間有30秒的空窗期,這段時間就必須由UPS來供電,才能確保所有IT設備能正常運作。

熟悉內情的人士指出,當時臺電供電一切斷,切換為UPS供電時,UPS的電量卻不足,因為無法供應足夠的電力,而導致機房大當機。

問題1:為何UPS故障會導致當機?
機房專家指出,因為UPS異常而導致當機的機率相當低。尤其像是中國信託商銀這樣大型銀行業者的機房,起碼都有大型資料中心的Tier 3等級水準,UPS的部署都會採取備援架構。

要達到Tier3等級, UPS得多部署好幾套備用電池,一旦有部分的電池發生問題時,這些備用電池就可以派上用場,來接替供電。機房專家表示,依照中國信託商銀這種類型的機房環境來看,一般都會配置兩套UPS設備,每套UPS共有兩串電池組,每串共串接32顆電池,所以共有4串電池組,以總共128顆電池來供應整體機房用電。

這樣的架構理論上是不會發生問題,據一位了解內情的人士指出,中國信託商銀的UPS架構並沒有太大的問題,問題是出在維護保養。

一般UPS電池每5年就必須要更新,但由於預算的問題,這批電池卻已經連續使用了7年。因而導致當機的問題,可能就是電池老化,電力不足以支撐機房的用電量,而導致全面當機。

機房專家指出,如果電池沒有定期的更換,就算UPS系統有備援架構,但因為電池是以串聯方式連結,這4串電池組中只要有一串電池組發生問題,提供的電力就無法達到原先預設的標準。

甚至,在一串電池組中只要有一顆電池老化,由於是串聯式架構,依然會影響到整串電池的供應電力。

問題2:為何選在上班日進行演練?
另一個問題是,為何中國信託商銀的機房會選擇在上班日進行停電演練,而不是選擇衝擊最小的假日來進行呢?

一位熟悉機房維運的專家表示,一般機房演練的時間,就像是應用系統轉換上線的時間一樣,都會選在對使用者而言衝擊最小的假日來進行。畢竟任何演練再怎麼準備周全,對於業務營運中斷都會造成一定的風險。

一位熟知內情的人士表示,中國信託商銀並不是不知道在上班日演習所造成的風險,但問題出在機房所處的位置就緊臨著民房。

中國信託商銀的機房也曾經在假日進行停電演練,然而發電機一運作起來,不僅噪音大,又會排放黑煙,使得附近住戶不滿,投訴抗議。

選在星期五下午進行停電演練,可能就是為了避免引起附近住戶的抱怨。
因為下班時間車水馬龍,既吵雜,空氣也不會太新鮮,在這個時候進行演練,可將發電機的噪音與排煙所造成的影響降到最低。啟示1:重視定期更新UPS電池
重視定期更新UPS電池如何避免類似的事件再次發生呢?多位機房專家指出,這個事件凸顯了企業機房容易忽略的兩件事:定期更新UPS電池、慎選機房的位置。

首先,平日要確實監控UPS的電量。事後推論,中國信託商銀在模擬停電演練前,應該不知道UPS電量不足,才會繼續演練。如果能提早知道,就能避免發生大當機。不斷電系統廠商表示,可以利用電池監控設備來了解電池的電量,這種設備可以連結所有的UPS電池,即時監控每一顆電池的電力,如果電池發生問題,系統可以立即告知哪些電池是有問題的。

不過,這樣的監控設備售價昂貴,針對大型資料中心,建置費用都要上百萬元。一位機房顧問表示,他不建議企業用戶一定要買這類設備。他認為,像中國信託商銀這類大型資料中心,一般都會將UPS系統集中起來,若UPS供電量有超過實際所需,再加上確實做到每季的固定保養,供電量不足的問題就會降至最低。

要如何做到每季的固定保養?最簡單的作法就是透過電錶逐一量測每一顆電池的電壓,並了解每顆電池的充放電狀態,如果電壓低於13伏特,就一定要更換電池。

但這種作法仍會有誤差,一來是電池會不斷老化,因而無法知道續航力還剩多少,再者,以電表量測到瞬間電壓雖然足夠,但不能保證其續航力,有可能一開始供電後,電壓就迅速降落。

機房專家指出,要準確掌握電池續航力確實相當困難,其中有一個方法是透過假負載與實際負載來求得數值。

假負載就是透過模擬實際供電的方式,來統計整體UPS電池的輸出功率與負載能力,不過,這個數值僅能當作參考,除非要像中國信託商銀這樣實際進行停電模擬演練,否則就無法確切知道電池實際續航力的時間。

風險最低也是最容易的作法,就是定期換新電池,但UPS電池要全數更新,也需要一大筆經費。

對於電池壽命的說法,令人吊詭的是,有些產品說明書上說電池的設計壽命高達10年,但這並不代表可以使用到10年才需要更換。因為電池的設計壽命是以最佳的環境來模擬,這個理想值當然會較高,但以企業機房的應用環境來看,業界的經驗是,可能不到5年電池就會老化。

廠商會根據每顆電池的設計,去規範出每顆電池的實際使用壽命。一般來說,雖然電池的設計壽命高達10年,但廠商會建議約2至3年就必須更換電池。此外,還有特別為高續航力設計的電池,這類電池的壽命就可以拉長,通常可長達5年再更換。再者,如果企業UPS設備是建置在機房內的環境中,在恆溫、恆濕與不受日曬的環境下,可以提升電池的使用壽命。
不過,不斷電系統廠商為了降低企業的風險,通常會調低建議更換電池的期限,比方來說,如果每4年就要更新的電池,通常會建議每2~3年就要更新。

除了定期更新UPS電池,也需要注意機房的電力架構,如果在機房建置時,就能強化電力的可靠度,就能降低不斷電系統出錯的機率。
也因此,在建置機房前要清楚了解企業的實際運用狀況,並建置出符合企業需求的機房可靠度。

根據EIA/TIA942規範中,機房的可靠度根據空間規畫、布線規畫、可靠度等級與環境考量,畫分為Tier1、Tier2、Tier3與Tier4四種等級。

最高等級的Tier4,可靠度可達到99.67%,就是做到雙迴路的機房用電環境,不只是雙迴路的UPS設備,包含空調用電、空調用水、發電機都採用雙迴路的設計,透過互為備援的方式,將災害發生的機率降至最低。

由於此種方案的售價相當昂貴,目前只有少數的臺灣企業採用Tier4等級,如中華電信正在興建的綠色資料中心,有部分的機房區域將採用Tier4的安全層級。廠商表示,建立雙迴路Tier4等級的不斷電系統售價;將是不做任何備援機制的2.5倍。

目前大多數臺灣大型的資料中心大都採用Tier3等級,所謂Tier3等級,除了互為備援的UPS供電模式,還要多買幾套UPS電池,當部分UPS電池發生問題,這些備用電池剛好可以派上用場,來接替供電,不過,若大多數UPS電力不足時,這個時候面臨停機的風險也會提高。

Tier2的架構與Tier3類似,只是「多買」的電池數量較少,當機房發生停電時,透過UPS能持續供電的時間也比較短。至於Tier1等級,則是UPS備載的用電量只足夠支撐所有的機房用電,當UPS有一顆電池發生問題,就可能面臨無法供應機房用電的窘境。

啟示2:慎選機房的位置
另一個使得停電演練造成嚴重衝擊的問題,在於演練的時間是選在上班時間。而中國信託商銀會選擇星期五下午模擬臺電斷電,則是因為機房緊鄰民宅,為了避免發電機的噪音與排煙擾民,不得不選擇在車水馬龍的下班時段演練,但這個時段則與臺彩的開彩時間接近,而且民眾利用下班時間提款的機會亦較高。

機房專家認為,企業要建置機房時,就要盡量避免與一般住宅為鄰。他表示,目前有些大型企業的機房都陸續搬到內湖科學園區,如國泰、富邦與新光等大型金控,因為位處商業區,並不會有吵到附近居民的問題,所以就可選擇假日來實施演練,降低機房演練的風險。文⊙林文彬


看大圖


Advertisement

更多 iThome相關內容