西洋萬聖節前夕,全臺都家喻戶曉的BBS網站批踢踢實業坊Ptt,無預警發生服務中斷的情況,站方最初於10月30日晚間在臉書的粉絲頁上,公告正在解決無法連線的問題,到了隔天上午,站方表示是因為磁碟陣列故障,預計11月1日恢復正常,不過,直到當天晚間八點,站方貼出致歉文,宣布將復原時間延至11月3日,並表示將著重在修復磁碟陣列,以及將先前備份的資料復原到備用的伺服器上。

若這個目標達成,Ptt無法運作的時間將長達4天,但如果不能克服相關問題,則可能要更久!若以站方公布的訊息來判斷事故的主因,癥結點應該是磁碟陣列設備或是硬碟的故障。而類似關於儲存設備出問題的狀況,之前也發生,例如,2015年因硬碟容量已滿而故障,2007年因電源發生問題而停機,導致硬碟運作受到影響,需重建系統。

事實上,所有的IT應用系統都有可能因為各式各樣的原因,而面臨故障的狀況,不過,若是一而再、再而三的出現,我們應該要思考如何解決、避免這樣的問題發生。很可惜的是,對於這樣的事故,除了站方和使用者很著急之外,我們至今沒看到任何IT廠商出聲,主動提出建議或是表示願意提供相關的支援或贊助,但其實這是展示技術實力與愛臺善心的絕佳機會,希望NAS、儲存陣列、資料保護軟體廠商,趕快挺身而出,不要只是隔案觀火、漠不關心!

另一個讓我們很感慨的部份則是,當各種新奇的IT技術接踵而來的時候,沒想到我們每天在使用的應用系統、網站服務,還是如此脆弱不堪。根據維基百科對於批踢踢的資料記載,批踢踢有三個站,其中一個架設在一家公有雲服務平臺,但三個站的硬碟都壞了嗎?用了雲端服務,卻不能保障系統服務的可用性,所以,到底是怎麼回事?架構出了什麼問題?也許能有相關的人士能夠提出解法,以便發揮使用雲端服務的優勢。

據傳言,批踢踢系統既有的幾臺硬碟接連發生故障,站方雖然換上新的硬碟,但在RAID重建過程中,又發生故障。而對於這樣的狀況,令人好奇的是,儲存設備廠商現行的產品具有足夠的因應機制嗎?

這讓我想到去年iThome刊出了解決RAID重建時間過久的專題報導,我們曾介紹可提供這類技術的廠商,例如HPE 3PAR Fast RAID、NetApp Dynamic Disk Pool、華為RAID 2.0+、IBM Distributed RAID,但用戶若要建置這樣的儲存設備,可能要花掉不少預算,而且,能否因應儲存陣列不定時面臨硬碟故障的問題,則有待進一步驗證,因為如何縮短RAID重建時間,以及如何確保RAID重建作業的穩定度,不一定是同一個議題。

如果不想只靠RAID來保護系統資料,若是採用軟體定義儲存系統,或是租用儲存公有雲服務,是否也是站方能考慮的選擇?

因為這類產品、服務一再強調的特點,就是具有更高的可靠度、容錯能力,用戶現有系統的大量資料若要遷移過去,可能是大工程,費心費力,但廠商若能把這樣的案例成功建置起來,不但可以充分證明相關技術的可行性,對於不熟悉這個領域的人來說,更是足以讓他們牢牢記住廠商品牌的機會。

但願已經有廠商投入相關的支援,只是我們還不知道他們的義舉和善行,而這次事件的影響對象,並非只有批踢踢站方和使用者,同時,也關係到臺灣IT儲存產業、甚至是臺灣IT界的名聲,希望大家重視!若無法妥善解決這個發生在自家的技術問題,也不用繼續研發、製造儲存產品到全球市場,因為別人很可能會因此以為我們不夠專業。

作者簡介


Advertisement

更多 iThome相關內容