根據Hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在臺灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XP與Windows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,不易安裝成功,因此這次我們以Windows XP環境來做示範。

首先,到Hadoop4win.nchc.org.tw或Hadoop4win.org下載0.1.5版本的Hadoop4win完整安裝檔。Hadoop4win 0.1.5目前包含五大軟體組成(1)Cygwin;(2)JDK 1.6.0 update 18;(3)Hadoop 0.20.2;(4)HBase 0.20.6;(5)Ant 1.8.2。因此整個完整版懶人包大約有189 MB,點擊Hadoop4win-setup-full_0.1.5.exe執行檔開始進行安裝的動作。

由於Hadoop4win會在安裝資料夾寫入數量眾多的檔案,假如你有安裝防毒軟體,安裝時間可能會比較長(因為每個檔案都被掃描過一次)。倘若你希望縮短安裝時間,可暫時性關閉防毒軟體。

Step 1

首先選擇語系「繁體中文,Chinese(Traditional)」

Step 2

本軟體採用Apache 2.0授權,按「我接受」

Step 3

如果你不需要HBase跟Ant,可以取消選取

Step 4

選擇安裝目標資料夾,預設為C:\Hadoop4win

Step 5

接著安裝程式會開始解壓縮

Step 6

接著會跳出Cygwin的安裝畫面

Step 7

安裝完成後,按關閉結束

Step 8

你可以從「開始」→「程式集」→「Hadoop4win」點選start-Hadoop啟動Hadoop服務於背景

 

當你完成Hadoop4win的安裝後,有兩種方式可以在Windows上啟動Hadoop。其一是從「開始」選單選取 start-Hadoop捷徑。其二是先點選 Hadoop4win 捷徑,進入Cygwin指令操作的介面,才下指令start-Hadoop來啟動Hadoop的五個背景服務(亦及NameNode、DataNode、JobTracker、TaskTracker與SecondaryNameNode)。

安裝過程中,Windows防火牆會跳出警告說有Java程式嘗試開啟網路連線埠,這是因為Hadoop背景服務至少會開啟五個網路連線埠來進行底層的RPC通訊,選擇「解除封鎖」。

Step 9

安裝過程中,Windows防火牆會跳警告說有Java程式嘗試開啟網路連線埠,直接點選「解除封鎖」。

 

接著,你可以根據Hadoop4win網頁的說明,學習基本的Hadoop指令操作。礙於版面篇幅,這裡我們僅列舉三個指令操作來進行說明。首先,第一個指令叫jps,這個指令顧名思義就是列出所有java process。單機版的Hadoop4Win,基本上應該要有五個Java程序。

Step 10

在Cygwin視窗中下jps指令可用來檢查5個背景程序是否啟動。

 

因此,倘若你無法看到五個Java程序名稱(前面的數字為PID,每次執行會不同),那代表你的電腦可能記憶體不足(最低需求為512MB,建議至少有1GB記憶體)。倘若你在執行上遇到任何問題,歡迎到Hadoop論壇提問。

如果你可以正常看到jps出現的五個Java程序,代表你的Hadoop環境已經在背景正常執行了。此時你可以點選「開始」選單的「NameNode Web UI」與「JobTracker Web UI」,或者直接用瀏覽器開啟http://localhost:50070http://localhost:50030的網址。

Step 11

開啟 http://localhost:50070 網址後的畫面

Step 12

開啟http://localhost:50030 網址後的畫面

 

第二個指令叫作Hadoop fs,這個指令是用來驗證Hadoop分散式檔案系統(HDFS,Hadoop Distributed File System)的功能是否正常。在Cygwin指令視窗鍵入以下指令,將位於安裝目錄(c:\Hadoop4win)的opt\Hadoop\conf-pseudo子目錄,上傳到HDFS的抽象檔案系統:

最後一個指令叫作Hadoop jar,這個指令是用來驗證Hadoop的MapReduce運算環境功能是否正常。在Cygwin指令視窗中鍵入以下指令,將剛剛上傳到HDFS的input目錄,共計13個檔案,進行「字數統計(Word Count)」的MapReduce範例運算。

Step 13

用Hadoop fs 指令做HDFS功能驗證

Step 14

用Hadoop jar指令做MapReduce功能驗證

 

Windows版Hadoop部署工具介紹

● 名稱:Hadoop4win

● 目前版本:0.1.5

● 簡介:hadoop4win,顧名思義為「Hadoop for Windows」,主要是提供 Windows 平臺上簡易安裝 Hadoop 的批次安裝檔。這個批次安裝檔的內容,主要參考自國網中心企鵝龍與再生龍團隊成員孫振凱先生之drbl-winroll作品,抽取安裝部分程式改寫成hadoop4win所需的步驟。hadoop4win 目前包含五大軟體組成,分別是Cygwin、JDK 1.6.0 update 18版本、Hadoop 0.20.2原始程式與中英文說明文件檔、HBase 0.20.6原始程式碼以及Apache Ant 1.8.2執行檔。

● 硬體需求:已知最低 512 MB 記憶體需求,建議至少 1024 MB。安裝相關軟體至少需要 500 MB 以上硬碟空間。

● 軟體需求:Windows 2000和 Windows XP,但目前已知 Windows 7 無法正常執行。

● 軟體授權:Apache 2.0 + GPL。由於Cygwin的授權是GPL,而Hadoop、Pig、HBase是Apache授權,因此本軟體採用雙重授權方式釋出。另外關於Sun JDK 部份未來若有爭議,將改採從官方下載方式釋出。

● 網站維護者:國家高速網路與計算中心

● 下載網址:hadoop4win.org或Hadoop4win.nchc.org.tw

● 檔案大小:完整版約有189 MB。

● 教育訓練資源:trac.nchc.org.tw/cloud,在這個網站上提供了Hadoop與多種雲端運算、海量資料分析等相關技術的訓練教材,包括簡報、實作內容的線上講義,甚至還有影片檔。

資料來源:國家高速網路與計算中心,iThome整理,2012年6月

 

《作者簡介》

王耀聰

國家高速網路與計算中心副研究員,也是國網中心軟體技術組副組長,從事雲端運算基礎架構的研發,包括Hadoop雲端運算平臺與Xen虛擬化叢集部署工具的開發,也是經營臺灣Hadoop使用者社群的重要推手。


相關報導請參考「Hadoop巨量運算活用術」

熱門新聞

Advertisement