今年2月25日堪稱是臺灣史上最嚴重的網路災難日,是方電訊大樓地下二樓電池室的一場大火,造成全臺大斷網,大樓機房電力中斷超過15個小時,直到隔天26日凌晨3點大樓才恢復供電。不少伺服器設置在這棟大樓6樓機房的網站業者,直到26日中午前後才陸續恢復服務。

網勁科技就是其中一家將網站伺服器設置在6樓機房的企業,在這次機房火災事故中,網勁科技有3個機櫃近30臺伺服器受到波及而關機。但是,在供電恢復後只花了4個小時,就完成30多臺伺服器的檢測和重新開機。

接著,為了逃離UPS電力設備損壞的6樓機房,而將網站伺服器搬遷到同棟大樓受影響輕微的3樓機房時,網勁科技花了8小時陸續移動機櫃時,也不需要關閉網站服務,靠的就是網勁科技技術長謝明吉用開源軟體打造的虛擬化平臺,才實現了機櫃搬家服務不中斷的效果。

謝明吉不只是網勁科技的技術長,也是共同創辦人。20年多年前從學生時期,他就開始在交大計算機中心打工擔任網管,磨練機房管理經驗,後來也在交大Linux中心擔任顧問。1999年,謝明吉和朋友共同創立網勁科技,由他負責建置資訊架構,同時帶領開發網站功能的研發部門和負責維運系統的IT部門。

多年來在機房打滾,甚至時常打地舖過夜的經驗,讓謝明吉一直思考進出機房時,應該事先備妥哪些工具或設備,來避免工具不足對工作效率的影響,也磨練出一套機房事故的應變策略。在他愛車的後車廂裡,甚至備妥了一套機房搶救「百寶箱」,例如各種機房工具,筆電、外接式螢幕、文具用品、五金用具,甚至是能隔離油性分子及酸性氣體的R95口罩等,隨時能派上用場。

這些工具讓他不只從容因應這次是方電訊總部大樓火災,在2001年時,網勁科技的機房設置在汐止東方科園區時也曾遭遇火災事故,謝明吉兩次都能快速讓網站復原。

不過,謝明吉並非只靠著這一套機房搶救百寶箱就夠了,還有他長年建置的輕量級IT架構。

網勁科技在2002年時和Yahoo奇摩合作推出網路開店服務,在2005年時網路開店家數達到700家,擁有10萬項商品。謝明吉利用開源軟體,如Linux作業系統,搭配Apache網站伺服器和PHP執行環境來打造網站,當時只需要6、7臺伺服器,就能撐起當年平均約每秒100MB,最高則達到每秒150MB的網路流量。

根據謝明吉的估算,2003年當時的伺服器硬體效能,大約可以承載每秒5MB的流量。但是為了解決150MB的挑戰,謝明吉沒有採取常見的圖片分流作法,將耗用流量的大型圖片檔案分散到多個伺服器來分擔流量,或者是租用CDN內容遞送服務來分散頻寬。

謝明吉認為,這些作法雖然可以分擔流量,但網站內容分散多處,會造成網站架構複雜化,反倒增加更多系統管理工作。

他反而是盡可能地使用靜態網頁來取代動態網頁內容,一方面可以降低網站伺服器的負載,另一方面也可以將網頁內容暫存在使用者端,當使用者重複瀏覽時可以減少需要傳輸的網頁內容。只有少數會隨使用行為動態變化的內容,例如購物車,才用程式自動產生。

不只簡化網站架構,謝明吉還將伺服器建置環境標準化,建置了一個能夠讓不同用途的網站,不管是網站伺服器、檔案伺服器或其他用途的伺服器,都能使用的共通執行環境,包括底層的作業系統環境和基本的部署設定,再透過負載平衡機制來分配使用者流量。

謝明吉表示,一旦現有的網站伺服器都滿載了,也可以很快部署一套新的系統,來分擔流量。而且MIS只需要管理一套標準化的伺服器環境,也能減少管理複雜性。也不用管理多套伺服器環境。

雖然當時網勁科技的IT部門好不容易有了2個人,但謝明吉仍是以1位MIS可以管理20~40臺伺服器的前提來設計資訊架構,在有2個MIS人力時,他就用來建立人力相互備援機制,仍然有1個人全權負責,由另一個人備援,而不是將工作分擔給2個人來管理。

用1人IT原則設計IT架構

謝明吉打趣的說,他的IT建置原則就是「無腦」,避免在日常管理中使用艱澀的IT技術來建置,最高指導原則就是,「用1個人就能管所有事的原則來設計MIS管理環境,才能簡化IT架構。」結合這些作法,他的網站甚至不需要啟用預先設計的圖片分流機制,光用靜態網頁就夠用了。

到了2006年,網勁科技開始和大陸交易市集淘寶網合作,提供臺灣民眾到大陸網購的服務,也引進大陸最大規模的第三方支付工具支付寶,來解決兩岸金流交易的需求,後來2009年更直接推出讓臺灣買家使用支付寶到大陸淘寶網購物的代收服務。

與淘寶網的合作讓網勁科技的業績大幅成長,網站流量倍增3、4倍,從每秒150MB達到600MB。網勁科技原有的硬體,開始滿足不了這樣的服務需求。

謝明吉評估,2008年開始,主流伺服器大多採用多核心處理器和大量的DDR3規格記憶體,理論上,這個規格的伺服器可以承載每秒100MB的流量,是2003年伺服器規格的5倍。因此,他決定整批升級網站伺服器的硬體設備,而不是改變網站的軟體架構。

謝明吉解釋,雖然整批汰換硬體的投資很高,但是能承載的流量多了數倍,而且需要管理的設備數量沒有增加,MIS可以沿用原來的管理方式。不過,硬體設備的快速進步,也帶來了另一個新的挑戰。

因為伺服器世代交替的速度越來越快,每次改版升級,為了支援新增加的硬體功能,如新一代的處理器,往往需要搭配新版伺服器作業系統,連帶一些應用程式也都得升級新版。

可是,謝明吉表示,網站程式對於執行環境非常敏感,不論是PHP版本、資料庫或Apache網站伺服器程式的改版,都可能會造成網站程式的問題,例如程式呼叫了新版沒有支援的函式庫而導致程式出錯,研發部門得耗費不少心力修改程式碼,來符合新版本的執行環境。為了採用新的伺服器來提高伺服器運算效能,來避免IT架構複雜化,就得修改網站程式碼,才能在升級的新版作業系統中執行。

後來,謝明吉從新版作業系統中,抽取出新版硬體的驅動程式,再部署到舊版作業系統中,讓舊版執行環境能夠支援新一代的伺服器硬體,來維持應用程式執行環境的穩定,避免網站開發人員花時間重新修改程式碼,也避免因重新修改程式而衍生的問題,讓原本已經順暢執行的網站服務出錯。

不過,要從作業系統中抽離出完整可安裝的驅動程式的難度很高,需要同時熟悉作業系統核心與應用程式的執行環境,謝明吉表示,熟悉OS核心的MIS已經越來越少,再加上,網勁仍有許多推出多年的老舊服務,不需要占用一臺實體伺服器的效能來執行。所以,他決定導入虛擬化來解決不同應用程式環境和多版本網站服務的執行需求。

用開源軟體Xen和DRBD自行打造虛擬化環境

其實,早在2004年,謝明吉就開始導入VMware的虛擬化技術來供程式開發需要的測試環境。不過,沒有大規模的導入。直到2011年,謝明吉為了降低成本,採用開源的Xen來自行建立虛擬化平臺。

謝明吉直接將一臺實際上線的網站伺服器轉移到Xen虛擬機器上來測試可行性,再擴大導入所有的網站伺服器,在14臺實體伺服器上,建置了20~30個虛擬機器來執行網站伺服器。運作半年之後,謝明吉進一步導入了集中式的後端儲存系統,來儲存虛擬機器的映像檔。

謝明吉採用了一套開源的分散式叢集架構的儲存軟體DRBD,利用2臺閒置的老舊伺服器,搭配高速的SSD固態硬碟,來打造虛擬化平臺的集中式儲存系統。

謝明吉表示,因為DRBD是透過網路將這兩臺伺服器組成相互備援的HA叢集,所以,需要升級到10GbE級的網路傳輸頻寬,另外採用SSD則是為了滿足所有網站應用程式的大量存取請求,集中到單一儲存系統後的I/O存取需求。他估計,後端儲存集中後,網站伺服器需要的IOPS數量大約需要每秒5,000~6,000次存取,採用SSD才能滿足這個需求。

解決I/O存取瓶頸的隱憂之後,謝明吉進一步將存取負載更高的資料庫也轉移到虛擬化環境中執行。

導入虛擬化之後,謝明吉透過虛擬化平臺來部署不同版本的執行環境和作業系統,以滿足老舊網站服務的需求,也空出了更多可用的閒置實體伺服器,另一個導入虛擬化的好處是,謝明吉表示,可以透過虛擬機器即轉移的Live Migration機制來實現不停機維修的目標。在這次是方電訊大樓火災中,正是Live Migration機制而避免因機房搬遷而中斷網站服務的時間。

花了8小時搬遷機櫃,也不用中斷網站服務

為了將3座機櫃裡的30多臺伺服器,從6樓機房搬遷到3樓。謝明吉先將DRBD儲存系統中的其中一臺HA伺服器關機,搬移到3樓機房後再啟用同步資料,接著將網站伺服器所在的虛擬機器,透過Live Migration機制集中到少數幾臺實體伺服器上。

再來就可以將沒有提供虛擬機器的實體伺服器關機,逐一搬遷到3樓部署。等到3樓機房的實體伺服器也完成設定開機執行後,再將6樓實體伺服器上的虛擬機器,即時轉移到3樓伺服器上。最後,再關閉6樓的實體伺服器搬移到3樓,重新加入虛擬化平臺分擔虛擬機器的執行。

謝明吉花了8個小時,才將所有實體伺服器搬移到3樓機房中,但在這個過程中,網勁科技的主要網站服務完全沒有中斷。「虛擬化省了8小時網站中斷時間。」他說。

下一步,謝明吉打算將大陸地區的伺服器也全面虛擬化,讓他更容易在臺灣就能遠端管理,遠在大陸機房內的伺服器,讓他用「1人IT」的管理哲學,將IT版圖影響力擴大到兩岸。

網勁科技技術長謝明吉認為,要用1個人就能管所有事的原則來設計MIS管理環境,才能簡化IT架構。


CIO小檔案-謝明吉 網勁科技 技術長暨共同創始人

● 學歷:交通大學資訊科學研究所

● 經歷:大學時在交通大學計算機中心擔任網管,學習機房管理技術,後來擔任過交通大學Linux中心顧問。1999年和朋友共同創立了網勁科技後,擔任技術長,負責建置IT架構和網路環境,同時要管理網勁科技臺灣與大陸的機房與IT環境。

 

公司檔案

網勁科技

● 成立時間:1999年9月
● 主要業務:兩岸電子商務荷包網、臺灣生活資訊服務網站城市通等。
● 地址:臺北市瑞光路513巷28號7F
● 網址:www.edyna.com

資訊部門檔案

● 資訊部門主管姓名:謝明吉
● 資訊部門主管職稱:技術長
● 資訊部門人數:2人。
● 每年IT預算:約1,000萬元(含人事、電信費用、硬體採購等)

IT部門大事紀

● 2011年:自行建置Xen虛擬化平臺,先將網站伺服器虛擬化
● 2012年:用DRBD建立集中式儲存系統,資料庫系統也虛擬化
● 2013年:大陸機房的伺服器也將全面虛擬化

 

熱門新聞

Advertisement