對於臺灣的企業來說,巨量資料這個風潮,就像是一個古老的時尚議題,因為巨量資料要處理的問題,本質上還是資料分析,只是處理的範疇更大更複雜,元富證券副總經理林東和指出,資訊廠商所推出的解決方案還在快速演進中,產品訴求五花八門各有不同,企業是否需要這個階段就導入,又是否需要藉助新的技術或產品,來解決巨量資料的問題,要看企業的資料應用需求而定。

因應巨量資料處理需求,企業大致上有幾個不同部署型態選擇,除了採用套裝軟體再自行搭配硬體,或是採購軟硬體整合的一體機,使用雲端服務算是最新的一種。不過,從臺灣的角度來看,雲端服務模式與軟體導向解決方案,都不是企業最偏愛的選擇,相較之下,以硬體形式推出的一體機(Appliance)是最受青睞的一種。

由於一體機的發展,已經轉向MPP架構,因此,企業可以漸進式導入,後續再視巨量資料發展需求彈性調整,除了可以橫向擴充提升系統效能之外,也可以針對非結構資料處理,另外搭配Hadoop專屬平臺來處理。目前各個資料廠商已經逐步向Hadoop靠攏,並且從分庭抗禮轉為相互依賴的發展格局,Hadoop一體機因此相繼問世,對企業來說,將可降低部署Hadoop叢集的門檻。

 類型1  套裝軟體搭配自組硬體

目前包括Hadoop、Greenplum以及Aster Data都有純軟體產品以及軟硬體整合的一體機產品,如果企業選擇以純軟體產品,雖然具有可以自由搭配硬體的優勢,但卻也相對挑戰企業的技術能力,因為軟體的資料處理效能是否可以充分發揮,往往與所搭配的硬體規格、平臺架構以及系統調校有關。

一般來說,企業在評估資料處理平臺時,如果選擇採用軟體型態的解決方案,通常都具有強大的系統架構規畫能力與維護能力。不過,臺灣有家晶圓公司為了解決巨量資料問題,1年多前開始尋找各種軟硬體的巨量資料解決方案,最後則決定以Hadoop搭配x86架構,作為發展巨量資料處理平臺的主軸。然而,在第一階段的概念驗證結束後,這家晶圓廠商公司小規模試行,並且部署了10~20臺伺服器,卻發現資料處理效能不如預期,理論上,以Hadoop架構可以幾分鐘完成的資料量,最後卻花費了1小時,其中的關鍵在於企業IT人員對Hadoop技術的掌握能力不足,以致於造成MapReduce程式與HDFS、Linux相互爭奪硬體資源,最後導致當機。

 類型2  軟硬體整合的一體機

相較於軟體解決方案的技術門檻,以硬體形式推出的一體機,不僅同時具有軟硬體整合的優勢,更重要是,系統效能調校也已經做到最佳化,對於企業來說,採用一體機可以大幅節省部署巨量資料處理平臺的時間,後續的維護也比較輕鬆,不過,一體機通常會配置比較貴的硬體,因此,成本效益的考量仍舊是企業必須斟酌的地方。

目前IBM、Teradata、惠普、甲骨文、精誠資訊Etu以及EMC都推出了巨量資料一體機產品。不過,各家廠商所採用的資料處理技術是否具有開放性,將是企業未來面臨擴充時能否無痛轉移的關鍵。以EMC的產品來說,雖然是採用MapReducer的理論來做分散運算,但儲存技術是來自EMC的MapR File System,而非Hadoop的HDFS,因此,雖然可以橫向擴充,但儲存技術就必須依循EMC的發展。

各大資料廠商為了因應巨量資料需求,不可能沿用10年前就開始發展的資料處理架構,因此過去2年併購動作頻頻,IBM收購資料分析公司Netezza、惠普買下了即時分析平臺Vertica、資料倉儲廠商Teradata併購Aster Data、儲存大廠EMC更接連收購資料倉儲廠商Greenplum以及磁碟陣列廠商Isilon,這些資料大廠透過併購所取得的技術,目前都已經與既有產品線完成整合,同時並相繼推出了一體機產品,例如:Teradata的Aster Data Appliance,預計未來還可看到更多有關一體機的產品。

 類型3  採用雲端巨量分析服務

然而,從企業的角度來看,巨量資料處理平臺並非一定得要透過軟硬體廠商取得,在美國,有不少企業的巨量資料處理,是部署在雲端架構系統環境上,目前這個領域主要的服務供應商有Amazon,Amazon的雲端服務AWS,總共有20多種服務,其中的EMR(Elastic MapReduce)服務,可以讓企業省去部署Hadoop叢集的工程,企業只需要把MapReduce程式,載入到EC2(Elastic Compute Cloud)虛擬機器執行EMR來運算即可。

除此之外,由於Amazon在臺灣並沒有機房,而巨量資料所處理往往是TB級以上的資料量,以這樣的資料量與目前的網路頻寬傳輸速度,絕對無法因應企業營運的巨量資料處理需求。周學政指出,如果巨量資料處理的需求,只是一次性或者是短期的資料處理需求,可以透過Amazon這樣的雲端服務模式處理資料,但若是長期需求,則不建議。

綜觀而論,究竟巨量資料要用哪一種平臺來處理,除了對各種技術平臺的掌握能力之外,還要看企業對巨量資料分析速度的期待,需要多快就要產生分析結果,幾秒鐘內就要做決策判斷,又或巨量資料的應用是要做長時間的大量資料分析。

 


相關報導請參考「巨量資料在臺灣」

熱門新聞

Advertisement