圖片來源: 

iThome

正如前面談到,大當機發生的時候,其實很多時候會是綜合的原因,現場處理的IT人員,其實不見得立刻就能掌握到底發生了什麼事情。這個時候,面對大當機事件,最重要的就是如何快速的釐清原因,然後才能擬定對策。

判斷病徵,縮小運作範圍,同時也要避免人為錯誤發生

當機事件發生的時候,每個IT人員的第一步一定是想辦法找出造成當機的可能原因,除了很明顯的原因之外,其實有的時候還需要一些時間判斷。當然判斷方式也有一定的指標可以參考,主要要先從影響範圍來看,先判斷是整個系統完全停擺,還是一部分系統停擺。然後再進一步從另一個指標來看,那就是分辨系統是在運作中突然停止,還是在剛起動的突然停止。

如果只有部分系統停擺,其他都還運作正常,那軟體本身出了問題的可能性很高。如果確定軟體沒有問題,這時候可以再依據剛起動或是運作中突然停擺來判斷,是不是發生了設定和操作上的錯誤,或是突發的硬體故障。如果是起動時就有部分系統停止,很有可能是設定和操作的錯誤;而如果是運作中突然一部分停擺,那很有可能是發生了硬體突然故障的狀況。

而如果是整個系統停擺,同樣也能從在運作中突然停止,還是在剛起動的突然停止,來做一些初步原因的摸索。如果是在運作中突然停止,那麼很有可能是軟、硬體的性能或是容量不足造成的原因,當然硬體突然故障和軟體的問題也不能排除;而若是在剛起動時的突然停止,那很有可能是設定和操作上的失誤,不過同時也必須考量到軟、硬體是不是哪裡容量不足,導致無法正常運行。當然這邊說的只是簡單的原則與初步判定的方法,實際還是有賴經驗與現場狀況而定。

值得注意的是,當原因確定之後,很多時候的處置是先把問題發生的部分暫停,這時企業或組織的營運勢必受到影響,一定程度的流程必須改以手動或是其他流程來進行,而連帶往往會造成營運端人員的混亂,IT人員的壓力也隨之增大。但這正是關鍵時刻,IT人員要特別注意在替代方案實行時,不能夠再發生人為操作上的疏失,否則很有可能會讓災害擴大,造成二次災害。

前面談到的日本銀行二次扣款事件,就是一個顯著的例子,正是由於在慌亂中疏忽,反而又造成了更嚴重的錯誤與傷害。

這個時候如果有標準應對流程,就可以減輕慌亂造成的風險。不少企業如果平時就有著眼在永續經營的標準和作法,事實上很多都有了當機應對的標準流程。

此外,在發現原因後,IT人員最好能夠透過明確的描述和文字記錄下來,例如哪臺伺服器的哪個部分出現問題;或是哪個程式的哪裡出現了錯誤。這不僅有助於傳遞訊息,而且由於很多時候大當機事件的原因並非只有單一問題,所以在一陣慌亂的處理中,有些已經發現的問題很容易在事後就被遺漏掉,讓這些問題又因為被遺忘而沒被修復,形成未來更大的問題。而且這樣的做法也有助於找出當機事件的真正原因,有的時候背後還隱藏著更大的問題未被發現。

不光是IT部門本身,也要建立對外溝通的緊急管道

還有一點常被忽略的做法,就是當機事件發生的時候,如果影響到了營運,很多時候IT部門因為焦頭爛額,往往會忘記在這個時候快速建立對外溝通說明的管道。

包括營運部門、經營層、使用系統的單位等,甚至與客戶聯繫的客服部門,其實在大當機事件發生的時候,往往都還是處在一團迷霧之中,並不了解真正的狀況、暫時能夠替代的方法等,導致企業瞬間癱瘓,甚至影響商譽。

這件事情不能不謹慎,否則可能會對企業造成很大的傷害。事實上國內就有實例,主機代管廠商戰國策,2009年初就有過因為網路客戶資料管理系統的設定錯誤,導致搜尋引擎上就能找到使用者詳細資料的客戶資料外洩事件。但戰國策卻沒有在第一時間通知客戶,這也使得商譽受到了一定程度的損失。

應對這樣的事態,其實IT部門應該建立起一套緊急的聯絡網,而且不光是IT人員要納入其中,在當機的第一時間除了處理IT方面的問題,也同時要與相關的部門聯繫,並且在確保了暫時代替的方案後,最好能夠快速的告知相關部門,除了告知處理狀況之外,也應該快速告訴使用單位代替方案的運作流程與方式,如此才能確保使用單位不會因為不知道替代方案,或是不熟悉代替方案的流程,又造成業務上的錯誤。

當然,要做到這些,先決的條件還是必須要能緊急找出問題。而找出問題,事實上就如同一開始談到的,其實和IT人員日常對整個流程以及系統狀況的了解有很大關係。也就是要建立一個足夠透明化的方法,讓IT人員能夠掌握必要的資訊。

例如伺服器和系統運作,有很多套裝工具可以監測。在虛擬機器上,除了VMware、微軟等虛擬化平臺廠商原本就提供的工具外,像是Novell、vFoglight等廠商,也都提供系統監測的工具;而實體平臺上像IBM、Novell、HP等廠商,也有監測的工具。甚至Windows作業系統也提供免費的監測工具。這些實際監控資訊的收集記錄,其實有時候能夠協助IT人員防範當機事件於未然,只有先了解自己的硬體和系統狀況,才有可能在當機的時候做出迅速的反應。當然能夠了解企業運作的流程,又會更有幫助。

 

當機事件發生時,IT單位理想的處理流程

 


相關報導請參考「為什麼會大當機?」

熱門新聞

Advertisement