臺灣Hadoop社群共同創辦人王耀聰在參加今年Big Data Innovation Summit 2016臺灣高峰會時提出他對Hadoop生態發展趨勢的最新觀察。

今年剛滿10歲的Hadoop,風潮卻不再。臺灣Hadoop社群共同創辦人,也是騰學廣告資料架構師的王耀聰今日(12/5)在Big Data Innovation Summit 2016高峰會上提出他對於Hadoop生態發展趨勢的最新觀察,他坦言,縱使技術不斷演進,Hadoop仍將會繼續存在,只是會慢慢萎縮,簡單講就是「老兵不死,只是凋零。」他說

曾連8年都擔任Hadoop社群年會總召的王耀聰,在國網中心任職時期曾建立了臺灣第一個Hadoop多叢集架構,也翻譯過多本Hadoop技術專書,可以說是在臺灣非常了解Hadoop技術演進、生態系和應用發展的專家。

MapReduce和HDFS一直是Hadoop最基礎的核心,但近年來,卻屢屢受到一些新興大數據技術的挑戰,比Hadoop晚4年誕生的Spark,採取和Hadoop截然不同的串流技術架構而在近幾年迅速暴紅,而AWS、Google和微軟都有用的HCFS(Hadoop Compatible File System)檔案系統也要取代HDFS,讓Hadoop開始支援原生的HCFS。

針對這些挑戰,王耀聰也給出了他的答案。他表示,在大數據技術演進上,無庸置疑的,Spark將會取代MapReduce成為Hadoop新的運算核心,不過在檔案系統方面,HCFS暫時還無法取代HDFS。王耀聰解釋,這是因為目前多數的Hadoop應用都是在以大檔案儲存使用的資料倉儲為主,HCFS適用在小檔案,較不適合用在儲存大檔案;並且HCFS會將儲存和運算分開,而失去資料在地性的好處,以致於無法活用Hadoop原本善於縮短儲存與運算距離的優勢,而影響了效能。另外換掉了最底層的儲存層,意味著上層的運算和應用層通通都得跟著改,有沒有做相應的配套機制,以及安全和品管也都是一大問題。

不過,王耀聰表示,即使是面對新興大數據技術的挑戰,Hadoop也並非完全只是坐以待斃,而是積極也想要鞏固住自己的地位,而不被取代掉,因此在新版Hadoop 3.0大幅提升Hadoop的功能。Hadoop 3.0 Beta版已在今年9月釋出,將在明年初推出正式版。

王耀聰指出,Hadoop 3.0的最大進展就是讓儲存的效率變更好,來減少企業建構Hadoop叢集的成本,並具備有更高的可用性,支援更多運算節點,以及減少Job Submission的啟動時間等。

他也以Hadoop 3.0新增的一個檔案系統機制來舉例說明。傳統Hadoop的檔案系統適用於大檔案,一直以來都有一個怕小檔案的問題,此外在儲存效率上,每份數據都要同時複製3份,也拉低了儲存效率,因此新版Hadoop 3.0中順勢推出HDFS-HC新功能,讓Hadoop也可以用在小檔案上,並具備有更好的儲存效率。這麼做的真正目的,在於確保即使技術不斷演進,「Hadoop底層的儲存核心位置也不會被動搖。」王耀聰說。

除了展望Hadoop的未來發展,王耀聰也提到Hadoop在臺灣發展運用的最新情況。他表示,臺灣推動Hadoop算是走的相當早,目前Hadoop的應用已經能跨多產業,導入最快的產業,是來自電信業,後來,開始有電商、零售和遊戲業者紛紛加入,去年也開始有金融、廣告和製造業開始導入Hadoop,用於提升風險管理、強化客戶體驗、達到精準的市場行銷,以及降低營運成本等方面。

王耀聰原本看好Hadoop在臺灣會形成一個產業鏈,但他現在更傾向認為,Hadoop將會發展成為一個用來滿足數據驅動(Data Driven)的垂直產業鏈,而非單一產業,縱使技術會一直演進,但他表示,未來這個生態系將會繼續存在,以滿足數據驅動的垂直產業應用。

不過相較於導入的企業變多了,應用已跨多產業,王耀聰也憂心表示,這些具備有Hadoop技術能力的企業卻變少了,目前臺灣在Hadoop技術方面的人才不斷流失,而多是仰賴系統整合商與代理商,但單一廠商的專業人力卻逐漸下滑,也造成臺灣Hadoop生態系的供給端日益式微,他認為,這也是當前急需解決的迫切問題。


Advertisement

更多 iThome相關內容