Hadoop 3.0正式登場，擴充力增加十倍，單一叢集能管10萬臺

歷經超過一年的測試版本，終於在12月13日迎來Hadoop 3.0，而未來Hadoop社群將會加速版本更新的腳步，預計每6個月就會有一個新版本釋出，而3.1與3.2版本也都在明年排定釋出行程表了。Hadoop 3.0在擴充彈性下了功夫，除了改進資料保護備份的機制後，以同樣實體儲存容量來說，可使用容量多了50％，另外也更新了YARN功能大幅增加了擴充性。當然也裝備了一些很炫的功能，像是支援Docker或是支援深度學習以及GPU加速運算技術等。

在資料備份保護的功能上，Hadoop 3.0不再使用一式三份的備份方式，而是使用糾刪碼（Erasure Coding），類似RAID 5或RAID 6以帶狀資料（Data striping）的方式儲存，不但可以維持相同的容錯能力，容量卻節省了一半。

另外，Hadoop 3.0放進了新的YARN資源管理功能，不只一個叢集可以有成千上萬個節點，甚至數十萬個節點都沒問題。YARN原本只支援一萬臺機器，但是在微軟貢獻了稱為YARN Federation的功能，讓Hadoop的擴充能力瞬間增加了十倍。經過的試驗，一個叢集擁有四萬個節點不會有太大的問題，甚至可以擴充到十萬臺運算節點。

值得注意的是，Hadoop生態系的擴充功能成員，不少目前都是執行JDK7，不過考量到JDK7的官方支援度已不足，在3.0以後，基於Hadoop執行的專案都要求使用JDK8，目前大資料社群正幫忙將Hadoop生態系的其他專案如HBase、Hive以及Phoenix支援FDK8。

為了跟上GPU平行運算潮流，Hadoop 3.0 YARN將能支援全型態的叢集使用CPU與GPU混合的運算，例如整合YARN與TensorFlow，終端使用者就能無縫的在深度學習或是Spark等工作中調度資源。

熱門新聞