Mesosphere分散式系統首席工程師Timothy Chen在2015年來臺演講時表示,若你去矽谷,只要講到大資料技術,大家都會告訴你要用SMACK,已經沒人在講Hadoop。(圖片來源/iThome)

在2015年談大資料技術,只知道Hadoop就落伍了,你還得知道最新竄紅的Spark,不過到了2016年,最夯的將不再是單一的Spark技術而已,而是由Spark、Mesos、Akka、Cassandra和Kafka這5項新興大資料技術組合成的SMACK架構,也成為接下來企業採用大資料的必備基礎。Mesosphere分散式系統首席工程師Timothy Chen在2015年來臺演講時表示,若你去矽谷,只要講到大資料技術,那些有用大資料技術的公司都會告訴你要用SMACK,已經沒人在講Hadoop。

一位瑞典大資料開發者Anton Kirillov把這5項大資料技術組合稱作SMACK架構,在2015年9月於斯德哥爾摩Big Data Meetup中提出,介紹如何用SMACK打造一套資料處理平臺,在SMACK架構中,首先,採用Spark分散式引擎用來快速處理大規模資料,並用Mesos管理叢集資源,Mesos是分散式系統的核心,提供有效的資源隔離,並能跨分散式應用程式共享資源,讓不同Scheduler決定怎麼使用這些資源。

Akka則是以Scala語言寫出的Actor模型庫,可用來建構一個能在JVM上執行的高同步、分散式、能自動容錯,並以彈性訊息驅動的應用,其中的Actor具有階層關係,此外,也可用Scheduler安排訊息發送排程。

儲存層使用Cassandra分散式資料庫,採用Key-Value資料儲存架構,可將資料結構最佳化,降低寫入負擔,進行線性擴充,可設定一致性層級(consistency level)來為個別應用程式配置CAP作取捨,調整速度及一致性等優先次序。另一部份則用Kafka做即時資料分析,Kafka是一套分散式訊息提交系統,可以預先將進來的資料集合起來,讓多個Consumer進行批次資料讀取,並能作為AWS Kinesis的串流資料層選擇。

大資料隱身各領域,人才缺口依舊在

但是Hadoop真的過時了、消失了嗎?在Gartner 2015年5月的調查報告中,未來想導入Hadoop的企業只有26%,而不導入的主因之一是企業內部缺乏對應人才,Hadoop臺灣社群共同發起人王耀聰表示,其實近年Hadoop和其他大資料人才皆有增加,但是被稀釋到各產業,缺口依然很大,真正用了也沒有人會操作,企業仍有擔憂。

2015年8月時大資料更完全消失在Gartner的Hype Cycle中,很多人說大資料已死。不過Gartner解釋,大資料很難自己獨立在一個領域,因此讓大資料「畢業」,隱身進入其他技術領域之中,成為其他技術中的一份子,包括物聯網、BI、Enterprise Architecture、Web-Scale IT及數位金融轉型等領域,王耀聰表示,不只是電子商務領域,大資料也將是數位金融背後的關鍵技術。

Spark風潮也吹進了臺灣,臺灣Spark社群開始成形,社群活躍成員之一的ElasticMining共同創辦人李俐慧表示,臺灣已有IT廠商想跳過Hadoop直接導入Spark。趨勢科技資深軟體工程師葉祐欣表示,新興大資料解決方案都專注在記憶體式運算(In Memory)和Fast Data,而Spark正是Fast Data的重要技術之一。

對於大資料技術未來的挑戰,王耀聰認為,安全性是2016年大資料要面臨的一大課題,儘管Hadoop Ecosystem 在主要安全性問題上已有對應的解決方法,不過2016年能會持續強化一致性與整合度,而Spark更是需要努力中,尚未滿足這些需求。此外,中長期來看,等非揮發記憶體NVM正式上市後,儲存與記憶體的界線將變得模糊,此時,程式設計的方式需要做出對應改變,也將引爆軟體的新革命。

各類IT應用趨勢分析,請參考:「展望2016:關鍵趨勢翻轉IT」


Advertisement

更多 iThome相關內容