歷經超過一年的測試版本,終於在12月13日迎來Hadoop 3.0,而未來Hadoop社群將會加速版本更新的腳步,預計每6個月就會有一個新版本釋出,而3.1與3.2版本也都在明年排定釋出行程表了。Hadoop 3.0在擴充彈性下了功夫,除了改進資料保護備份的機制後,以同樣實體儲存容量來說,可使用容量多了50%,另外也更新了YARN功能大幅增加了擴充性。當然也裝備了一些很炫的功能,像是支援Docker或是支援深度學習以及GPU加速運算技術等。

在資料備份保護的功能上,Hadoop 3.0不再使用一式三份的備份方式,而是使用糾刪碼(Erasure Coding),類似RAID 5或RAID 6以帶狀資料(Data striping)的方式儲存,不但可以維持相同的容錯能力,容量卻節省了一半。

另外,Hadoop 3.0放進了新的YARN資源管理功能,不只一個叢集可以有成千上萬個節點,甚至數十萬個節點都沒問題。YARN原本只支援一萬臺機器,但是在微軟貢獻了稱為YARN Federation的功能,讓Hadoop的擴充能力瞬間增加了十倍。經過的試驗,一個叢集擁有四萬個節點不會有太大的問題,甚至可以擴充到十萬臺運算節點。

值得注意的是,Hadoop生態系的擴充功能成員,不少目前都是執行JDK7,不過考量到JDK7的官方支援度已不足,在3.0以後,基於Hadoop執行的專案都要求使用JDK8,目前大資料社群正幫忙將Hadoop生態系的其他專案如HBase、Hive以及Phoenix支援FDK8。

為了跟上GPU平行運算潮流,Hadoop 3.0 YARN將能支援全型態的叢集使用CPU與GPU混合的運算,例如整合YARN與TensorFlow,終端使用者就能無縫的在深度學習或是Spark等工作中調度資源。


Advertisement

更多 iThome相關內容