圖片來源: 

iThome

今年初始,就發生了兩起和硬碟相關的大事件,首先是1月5日,桃園機場大當機36個小時。根據移民署的說法,起因是硬碟與磁碟陣列系統過度老舊,導致1、2航廈儲存系統的硬碟同時損壞,讓整個出入境系統無法運作,這一事件的後果就是,在當機的36個小時中,有8名通緝犯成功的逃亡出境。然後在1月19日,全球最大硬碟製造商希捷(Seagate)在官網上坦承包括Barracuda 7200.11、DiamondMax 22以及企業等級的Barracuda ES.2在內的3個系列硬碟產品,許多型號的韌體都必須更新,否則可能會導致BIOS無法找到硬碟、通電後無法動作、系統當機等問題。此消息一出,使用者一片譁然,某位不願具名的磁碟陣列經銷商更表示,他至少賣出了數千顆有問題的硬碟,幾乎不可能一一協助企業更新韌體。

機場當機事件:備援系統的硬碟也失效

先來看看桃園機場的事件,內政部移民署副署長黃碧霞在先前接受iThome電腦報周刊訪問時指出,因為系統老舊,線上和備援系統的硬碟同時損壞,是當時機場大當機主因。此外,維護廠商對系統的不熟悉可能也是原因之一。據了解,由於護照查驗系統的維護,是每年一標的維護案,而「98年度電腦設備暨相關軟體維護案」的競標,是在2008年12月31日決標,系統維護廠商在事發前,才剛從大同公司轉由神通電腦負責,兩家公司並沒有正式完成交接,神通電腦是在完全不了解系統架構與概況的情況下,搶修護照查驗系統。

由桃園機場的事件,企業使用者可以看到幾個教訓,首先就是,硬碟定期更換對於企業和組織的重要性。但問題是有多少企業有定期監測硬碟的使用狀況?超過保固年限是否就會更換?桃園機場的前車之鑑正好再次提醒了使用者,在企業的應用環境中,硬碟健康狀況的確認,是十分重要的一環。除此之外,維護人員對於儲存系統的了解,也必須是企業重視的一環,否則在系統出問題時,很有可能會因此無法快速修復系統,導致影響營運的時間更為拖長。

希捷硬碟韌體事件:出錯原因不明,開關機頻繁可能會導致硬碟失效

而另一個事件,希捷的韌體出錯事件,則和上述不同,是企業自己也無法預防的產品瑕疵事件,當企業遇到這樣的事情時,為求安心,可能需要大規模的更新韌體。這件事說起來簡單,實際上卻是吃力不討好的工作,因為這代表著企業的資訊人員必須先將資料備份,然後停止磁碟陣列的運作,之後再一臺一臺的將硬碟拿出來與電腦連接,進行韌體更新。如果硬碟數量一多,在實際執行上,這幾乎是不可能的任務。在網路上討論區中,就有人指出,依照希捷提出的型號,該公司有480顆硬碟必須更新韌體,如果依照上述的做法進行更新,非常曠日廢時。

關於這次事件,希捷的官方聲明稿中坦承韌體出錯,但對於韌體如何出錯的技術細節,則完全沒有提及,僅在聲明稿中重申,硬碟因為此一問題而毀壞,資料並不會因此消失,並且提供客戶服務的網址與連繫電話。一位不願具名的磁碟陣列廠商表示,他們現在也無法確定韌體出錯的真正問題,與希捷技術人員溝通的過程中,技術人員對於問題所在也語焉不詳。但根據他們的實測,系統開關機的次數越頻繁,硬碟越有可能發生希捷所描述的症狀。

對於此一問題,截至截稿前,臺灣希捷都不願意提供我們關於此一事件技術方面的任何回應,因此我們也無法證實是否上述的說法為真。不過企業也不需過度恐慌,根據目前的了解,多數磁碟陣列廠商都表示,目前希捷硬碟有問題的型號,在企業端磁碟陣列上使用,都還沒有客戶回傳發生錯誤的消息,可見影響層面不大。

 

 桃園機場當機事件簿 

●2008年12月31日
年度的維護招標結束,從大同公司轉由神通電腦負責維護

●2009年1月3日
神通電腦的合約從該日起正式生效,但因為恰逢元旦年假,雙方的交接並沒有正式進行。

●2009年1月5日
元旦年假結束,桃園機場護照查驗系統於凌晨突然當機,經查原因是因為硬碟損壞而造成。

●2009年1月6日
護照查驗系統停擺後,整個通關手續轉為手工,通關速度嚴重延誤,民怨四起。移民署被迫出來說明,是系統過於老舊,硬碟接連損壞所造成的當機。

8個通緝犯在此次當機事件中成功潛逃出境,並且造成旅客行程大亂,嚴重損害了桃園機場在航班起飛安全與出入境管理方面的形象。事後移民署提出將不排除要求廠商賠償損失。

 

 希捷韌體出錯事件簿 

●2009年1月19日
希捷在官方網站坦承3種型號共21 款硬碟的韌體出錯,使用者必須更新。並且指出這些韌體出錯的硬碟,主要是在去年年底出貨的產品,但後來又改口為去年12 月出貨的才有問題。

●2009年1月20日
希捷釋出部分有問題硬碟的韌體更新檔,但隨後因為發現更新檔與部分硬碟產品不合,又移除連結。但部分使用者已經因為更新而導致硬碟出現問題。

●2009年1月21日
主流報紙刊登希捷韌體出錯的新聞,並在新聞中談到希捷將會負責免費資料回復。但臺灣希捷客服部門否認此一說法,僅願意免費釋出韌體與更換產品。

●2009年1月下旬
希捷陸續釋出各款型號硬碟的韌體更新檔,經銷商也開始在網站上提供更新步驟。但臺灣希捷並沒有說明韌體出錯的詳細技術問題與臺灣市場受到影響的狀況。

 

磁碟陣列大廠會針對硬碟韌體改寫,所以影響較小

日立數據系統(Hitachi Data Systems,HDS)技術總監張憲桐表示,這是因為多數磁碟陣列系統的大廠,如HDS、EMC、HP、IBM等,出貨時都會搭配通過自己認證與規格要求的硬碟,和硬碟廠商提供一般市場上可以買到的硬碟不同。且為了配合磁碟陣列的控制器,都會將硬碟的韌體做一定程度的改寫,在出廠前針對整個系統做多方的測試。在這樣的狀況下,因為硬碟韌體出錯而造成企業儲存系統出錯的可能性很低。「我不敢說百分之百沒有問題,」張憲桐說,「但是因為韌體已經被我們系統商改寫過了,所以出錯的可能性非常低。」

HP企業系統事業群儲存方案產品經理蕭舜華也指出,一般來說外商的儲存系統大廠,在出貨時都會針對韌體做改寫,並且經過嚴謹的測試,在這樣的狀況下,使用該公司的企業,儲存系統因為硬碟出錯而導致失效的可能性非常低。蕭舜華說:「我們現在沒有收到任何客戶因為希捷韌體的這個問題而導致系統出錯的回應,我認為HP應該不會受到影響,因為除了韌體有被改寫過,出貨前我們也會針對磁碟陣列進行3~5天的測試。」

不光是HDS和HP這兩家表示使用該公司產品的客戶不需要擔心會受到希捷硬碟韌體出錯的影響,持相同看法的廠商還包括EMC、IBM、Dell、NetApp等,幾乎較大規模的外商都共同指出,該公司的產品由於改寫過硬碟韌體,所以受到此一事件的影響很小,企業用戶不用過度擔心。其中,EMC解決方案總監李百飛表示,即便真的需要更新韌體,EMC的產品也能透過控制器同時更新全磁碟陣列的硬碟韌體,不需要一臺一臺拔下來處理。

使用較小規模的磁碟陣列廠商設備,用戶則須考慮更新韌體

另一方面,使用較小規模磁碟陣列廠商設備的使用者,則必須注意此次希捷韌體出錯事件可能會帶來的影響。雖然有些廠商也會針對硬碟做認證,如普安等,但許多時候購買這些磁碟陣列產品的企業,卻不見得會同時購買通過認證的硬碟。在這樣的狀況下,使用到有問題型號硬碟的企業,可能就必須針對有問題的型號進行韌體更新。

對於使用這些磁碟陣列廠商的產品,且恰巧使用到有問題型號希捷硬碟產品的企業來說,更新硬碟韌體將會是一個大工程,不過值得慶幸的是,目前包括普安、普樺、延碩、銀興等公司在內,都沒有客戶的磁碟陣列因為希捷的硬碟韌體問題而造成系統失效。不過如果企業使用者為防範未然,想要針對有問題的硬碟進行韌體更新的話,據了解,目前多數這些規模較小的廠商,多數都不會在臺灣區提供韌體更新的服務,企業的資訊人員很有可能必須自立自強。

普安科技技術處技術支援部資深副理林振誠就表示,目前普安並不會針對在亞洲地區的客戶主動提供韌體升級的服務,企業使用者必須自行透過希捷所發布的韌體進行更新,或者與普安的經銷商連繫,由經銷商決定是否提供相關服務協助。

延碩系統總經理胡學森也指出,使用者必須與該公司的經銷商連繫,透過經銷商決定是否提供相關服務。他也指出,目前看來,如果企業要針對有問題的硬碟更新韌體,只能一臺一臺從磁碟陣列上拆下來更新韌體,將會是一個十分艱困的工作。

不過在這些廠商中,某家不願具名的磁碟陣列廠商表示,其實部分廠商已經可以透過磁碟陣列控制器功能的改寫,使得磁碟陣列有能力同時更新所有陣列上硬碟的韌體,但這不是所有廠商都能做得到,也不是廠商提供給使用者的磁碟陣列控制器上,會加入的功能。

總而言之,使用這些系統的企業,如果決定要更新有問題型號硬碟的韌體,除了和經銷商洽談之外,可能就只有自立自強一途。不過,林振誠表示,對於許多企業用戶來說,雖然在磁碟陣列中使用希捷的硬碟,可能存在著潛在的危險,但他依然不建議使用者自行更新硬碟的韌體。「即便要更新,也要先做好完整的資料備份,因為硬碟的韌體更新是很危險的事情,如果一不小心硬碟可能就會因此完全無法運作與使用。」林振誠說。

此外,林振誠也補充,目前對於使用磁碟陣列為主的企業來說,希捷這一次韌體出錯的問題,影響看來不大,因為像他們這樣的磁碟陣列廠商出貨時,雖然沒有改寫韌體,但往往會針對特定的韌體做認證,這代表該款硬碟至少和磁碟陣列搭配,有一定的穩定性。事實上,希捷在國外的官方聲明中,也談到這次韌體的問題,主要會影響的是做為一般電腦開機與系統運作的系統碟。林振誠表示,如果企業現在有使用到希捷列出的有問題的硬碟,但在磁碟陣列中運作一切正常,可以考慮暫緩全面更新韌體,因為硬碟的韌體更新十分危險,也不確定更新之後是否能和現有的磁碟陣列設備持續配合運作良好,可以暫且觀望一段時間。「當然,資料備份一定要做,將資料備份到其他廠牌或希捷沒有問題型號的硬碟。畢竟希捷官方都承認有錯誤了,最好找專業人士協助,找機會進行韌體更新或更換現有的硬碟。」林振誠說。

硬碟定時更換與建立良好備份制度,才是避免硬碟出錯的法則

從希捷和桃園機場的這兩個事件中,我們可以發現,做為企業儲存設備中最小元件的硬碟,卻往往會是儲存系統中脆弱的一個環節,導致整個企業的營運受到嚴重影響。而企業要避免這樣的事件發生,就必須定時檢查硬碟的健康狀況,並且密切注意硬碟的使用年限,定期更換。

很多企業購買了儲存系統之後,就將一切維護的責任都交由系統廠商負責,但若發生類似桃園機場的事件,如果組織內部沒有人能熟悉硬碟以及整個系統的運作,很有可能就會讓系統的修復時間大幅延後。此外,企業內部人員如果對儲存系統的掌握度不高,也很難知道維護廠商到底有沒有確保系統的健康。舉例來說,企業可能就完全無法得知使用的硬碟年限、效能狀況等等,而維護廠商是很有可能因為成本的考量,使用早已超出年限的設備。雖然有RAID等架構協助企業,防範因為硬碟損壞而導致的資料流失,但類似桃園機場這種硬碟接二連三在短時間內損壞的狀況,也是有可能發生的,而這正突顯出平時了解硬碟健康狀況的重要性,對於企業來說,這是不可疏忽的步驟。

當然,要確保企業重要的資料或系統,不會因為硬碟出錯而受損,最重要的不二法門,還是良好備份制度的建立。這一點,很多使用者都已經意識到,在之後的篇幅我們將會詳述,備份是提供資料保障的重要措施。

尤其以希捷本次韌體出錯的事件來看,更能突顯資料備份的重要性。如果沒有建立良好的備份制度,企業內部的資訊人員在遇到這種需要將數量眾多的硬碟進行韌體更新的狀況時,將會根本無法下手,因為系統根本不可能在短時間備份完畢龐大的資料。雖然更新韌體所需面對的停機問題也很令人頭大,但如果沒有進行備份,連停機而後進行韌體更新的可能性都沒有,只好任由潛在的硬碟損壞危險潛伏在企業的儲存系統之中。

企業需建立正確的儲存系統管理觀念

其實硬碟損壞的這一風險,歸咎到最終,最大的問題就是企業有沒有做好儲存系統的風險與投資的平衡,而在這之中,最重要的是企業必須建立起正確的儲存系統管理觀念。舉例來說,凌威科技總工程師江智雄就指出,就他修復硬碟資料二十多年的經驗來看,許多企業在購買了磁碟陣列之後,就很少去確認系統的狀態,有的時候甚至RAID架構下的硬碟有一臺已經損壞,卻還是繼續使用。「遇到很多企業的使用者,因為不熟悉儲存系統的操作與硬碟更換,往往在硬碟損壞時不做處理,也不做更換,平時也沒有備份,重要的資料全部依賴RAID容錯的能力,直到第二臺硬碟損壞後,才尋求資料回復的服務。而這個時候,往往損失已經造成了。」江智雄說。

林振誠也有類似經驗,他指出,很多企業的儲存系統管理人員,對於儲存系統的認識不足,都以為硬碟壞了可以先緩一緩,但事實上當RAID架構中的硬碟發生問題,應該是要立刻處理,這種「等到壞再換」的心理,其實是很要不得的想法。

目前很多儲存系統大廠,已經提供自動偵測與更換的服務,舉例來說,李百飛就表示,EMC的維修合約中,就包含了用戶的系統資料自動回傳,當系統偵測到用戶的硬碟可能將要發生問題時,資訊傳回維修中心,維修中心就會立刻派人前往客戶端更換硬碟,如此一來,就能協助客戶防範硬碟損壞的風險。「其實我們協助客戶換下來9成的硬碟,都是還未損壞就預先透過系統檢測換下了。」李百飛說。如果企業有充裕的預算,或許可以選擇類似的服務。

 

 希捷硬碟韌體需更新的型號列表 

 

 各家磁碟陣列廠商對希捷硬碟韌體事件的說法 

【相關報導請參考「機場當機與希捷韌體事件的省思:你的硬碟還健康嗎?」】

 

熱門新聞

Advertisement