圖片來源: 

Hadoop

隔了兩年,Hadoop終於又有大改版,Apache基金會近日發布了Hadoop 2.8版,一次新增了2,919項更新功能或新特色。不過,Hadoop官網建議,2.8.0仍有少數功能在測試,要等到釋出2.8.1或是2.8.2版才適合用於正式環境。

在2.8版眾多更新,主要分布於4大套件,分別是共用套件(Common)、底層分散式檔案系統HDFS套件、MapReduce運算套件和YARN分析框架等4個套件。例如,共用套件中,可無上限存取S3檔案的Hadoop內建S3A機制,也強化了資料介接彈性,可直接外掛上任何AWS驗證的資料來源,也可用hadoop驗證API直接取得S3A驗證,取代透過XML配置檔來設定的方式,還能支援Amazon STS臨時驗證。另外,新版也開始支援直接存取Azure 資料湖(Data Lake)。這兩項功能都有助於簡化Hadoop從大型雲端儲存服務中取得大量分析資料。

除此之外,DFS分散式檔案系統,支援非同步重新呼叫(Async Call Retry)和容錯轉移(Failover),來降低DFS檔案系統重連的門檻。安全性方面,新版可透過Servlet過濾器,來防護XFS攻擊(跨框架腳本攻擊,Cross Frame Scripting)。建置機制,2.8則用Yetus取代了wrapper版本發布方式,還新增了Docker軟體包的發布方式,更容易打包建置環境來測試或交換。

HDFS套件則是強化了WebHDFS對偽造跨站請求(Cross-site Request Forgery)的檢查來提高安全性,也支援OAuth2驗證方式。HDFS還新增了多層式巢狀加密區機制,不再只能指定單一個目錄加密,也能對目錄底下的不同目錄,分別建立加密區來強化控管。另外,還採用了新的DataNode協定,可以避免NameNode不正確地回報DataNodes的狀態。

雖然大多數Hadoop使用者不會在Windows環境執行程式,但YARN套件還是新增對Windows環境的CPU資源監控。而MapReduce套件的新特色之一則是,發布MapReduce運算任務時,可以順便加上標籤以便於管理。

熱門新聞

Advertisement