台灣大哥大系統規劃暨維運處處長王衛道認為,虛擬機器數量越來越多以後,就得仰賴自動化的管理工具監控服務狀態。

圖片來源: 

iThome

走進台灣大哥大系統規劃暨維運處處長王衛道的辦公室,一定會看到牆上掛著一個19吋螢幕,畫面中的圖形顯示出台灣大哥大(台哥大)每一個重要營運系統的執行狀態,這正是王衛道用來管理台哥大資訊基礎架構的利器。

台哥大IT部門依據不同AP的特性,來定義不同顏色所代表的狀態臨界值,一眼望去,馬上可以清楚知道北、中、南區直營門市或加盟店門市人員的電腦設備,連結到後端應用系統的過程中,每一段的網路連線、虛擬機器上的AP伺服器,或後端資料庫系統的運作狀態。綠色燈號代表正常,而不同顏色的線條則反應出每一段網路的流量負載。

對王衛道而言,維運部門最重要的任務是監控系統服務的營運狀態,但目前,台哥大虛擬機器的數量多達3、4百臺,雖然王衛道帶領的維運處只需要負責管理網路、伺服器、中介軟體和資料庫系統,但他認為,虛擬化以後,伺服器的管理複雜度更高,「虛擬機器的數量越來越多後,就需要發展成私有雲,開始使用自動化的管理軟體。」

市售套裝管理軟體功能遠多於台哥大的需求,而且售價也相當昂貴,因此他決定自行打造管理工具,將各種監控資訊彙整到單一資料庫中,再透過免費的NagVis工具來繪製出網頁版的系統和網路架構圖以便呈現運作狀態。

管理人員只要透過瀏覽器就能隨時看到各系統的運作情形,王衛道辦公時,只需要抬頭就能掌握企業內部這朵私有雲的最新動態,也不用等待部屬通知或系統示警簡訊。

虛擬化前要先標準化

不過,王衛道表示,台哥大先進行標準化以後,才能順利導入虛擬化。2005年,為了降低成本,台哥大開始推動標準化,將原本的主從式架構,轉換到三層式架構,使用者透過IE瀏覽器登入中間層的Web化應用程式,後端則是資料庫系統。另外也將中間層的應用程式轉移到x86伺服器。

為了轉換架構,台哥大也重新改寫應用程式,讓應用程式和資料庫系統分開,並且簡化了支援瀏覽器、Web伺服器和底層作業系統的版本。

執行環境標準化以後,王衛道發現伺服器的平均利用率不高,有些前臺AP白天使用率100%,但晚上跌到10% ,有些AP則是一周才會用到一次。6、7百個應用系統,執行伺服器的每周平均使用率只有10~20%。

為了提高使用率,台哥大從2009年開始大規模導入虛擬化,採用VMware虛擬化技術,逐步將AP伺服器轉換到虛擬機器上執行。資料庫則因各地直營店和加盟店總數多達7百家,上班時間連線數多而且運算量高,就算是晚上,資料庫系統也要執行批次指令,而沒有轉換到虛擬機器中執行。

開發新AP限用虛擬機器

因為台哥大上線的AP多達6、7百套,幾乎每天都有AP專案需要測試用的執行環境。所以,台哥大先從測試環境開始導入虛擬化,再逐步擴大到正式上線的環境。後來每次開發新的AP時或是舊版AP要大改版時,王衛道強制只提供虛擬機器作為開發環境,「等到這些AP上線時,也自然而然地使用虛擬機器執行。」這正是王衛道擴大虛擬化應用範圍的策略。

另一方面,因為台哥大的網管人員和伺服器管理人員分屬不同團隊,王衛道也重新調整雙方的工作流程和合作模式,並且對雙方都進行跨領域訓練,相互了解對方的領域知識。他解釋,過去建置執行環境,網管和伺服器負責人可以分別進行,但現在規畫虛擬機器的建置時,網管人員就要參與設定,例如決定虛擬機器要使用哪個網段才會順暢,儲存架構要如何共享網段等。「雖然這兩種角色重疊的工作大約只有15%,但在虛擬機器管理上,必須找出雙方角色合作的方式。」

目前,台哥大的虛擬機器大約有300~400臺。台哥大觀察虛擬機器執行情形,發現VMware虛擬機器本身消耗的處理器資源大約占15%,所以,王衛道認為,可以在單一實體伺服器上採取AP混編的作法。他依據AP特性,將不同負載類型AP的虛擬機器放在同一臺實體伺服器中,例如將白天忙碌的前臺系統,和晚上忙碌的後臺AP放在一起,來提高利用率,而不是依據虛擬機器的作業系統來歸類,所以,一臺實體伺服器上可能會同時有Linux和Windows Server。

「關鍵是同類AP的虛擬機器放在相同網段,效能較佳。」王衛道說,他會依據AP之間的相互關係來切割使用的網段,讓需要相互存取資料的AP位於同一個網段中,減少跨越網段的傳輸延遲,並盡量將同類AP放在同一座刀鋒系統中,例如直營店系統相關的AP。

另外,台哥大也在2個不同地的機房中,各建置了1組刀鋒系統來執行交易量高的交易系統虛擬環境,兩套系統採取負載共享的作法,而還沒有進行異地備援,萬一其中一套系統當機,還有另一套系統可以繼續營運確保服務不中斷。單臺實體伺服器上可執行5~6個虛擬機器。

為了管理大量虛擬機器,台哥大開始自行打造管理工具。王衛道表示,目前主要需求是監控,而不是自動化配置(Auto Provision)。因為一個專案往往得花數個月才能完成,光是執行環境的配置就要花一段時間討論才能決定,「用2天完成設定和幾分鐘完成設定,對專案的差別不大。」他解釋。

台哥大自行開發的管理工具以監控用途為主,監控項目包括了虛擬機器的處理器利用率、記憶體、I/O流量、連線數量等,網路端則有封包遺失率、回應時間等一般監控實體伺服器時需要的資訊,透過這些資訊來判斷哪一個虛擬機器或服務發生當機。

另外,台哥大也開發了一些使用者端的連線偵測工具,安裝在不同地區,例如北、中、南部門市中使用者的電腦上,來監測使用者端到應用伺服器之間的連線狀態,以便監控網段中的交換器或路由器是否故障。最後,將這些監控資訊都彙總到一個監控平臺上,再透過視覺化的資訊架構地圖,在網頁上即時呈現出各種AP服務從使用者端到後端資料庫系統之間的執行狀態。

不論是王衛道或AP團隊的主管都可以透過瀏覽器監看這個服務監控平臺上的資訊。若有出現代表當機或負載過高的紅色警告,維運人員可以進一步點選畫面中代表不同網路設備或伺服器的圖示,打開更詳細的狀態報表,來判斷可能發生的問題。

使用者不易評估運算需求,自助式服務時機未到

因為台哥大內部AP的客製化程度很高,王衛道認為,使用者如行銷部門人員的資訊能力還不足以判斷需要多少運算資源,所以,他還不打算建置自助式服務,讓使用者透過網頁自己申請虛擬機器的配置。

但是,王衛道倒是打算導入計價機制,計算出不同AP使用的虛擬機器和儲存、網路資源所對應的成本結構,希望透過計價機制來了解運算資源分配的情況,而不是要收費。他認為,若要實際進行內部收費還須公司高層支持與政策配合,台哥大目前還沒有要進行這項作法。

 

台灣大哥大自行打造了一套監控應用服務的視覺化監控平臺,包括使用者端的連線狀態,到每一個執行AP的虛擬機器狀態,以及後端資料庫系統運作資訊,都呈現在NagVis工具繪製的架構圖上,透過顏色來代表不同的伺服器健康狀態,管理人員一眼就能找出發生問題的設備。

 


相關報導請參考「私有雲實踐術

熱門新聞

Advertisement