Google推出Cloud Dataproc雲端服務，要讓Hadoop及Spark叢集管理更容易

Google宣布推出Cloud Dataproc服務，號稱可讓Hadoop及Spark叢集的建立更快、更省成本，管理也更容易。

Cloud Dataproc是Google Cloud Platform服務的最新成員。Google產品經理James Malone指出，Hadoop或Spark雖是功能強大的大資料分析工具，但其中的部署、擴充、使用及管理工作相當複雜，而且牽涉龐大的成本。Cloud Dataproc正是為了簡化Spark及Hadoop服務而設計，能讓使用者進行批次處理、查詢、資料串流及機器學習等工作，其自動化工具可協助使用者更快新增及更容易管理資料叢集，並且能在不使用時關閉，以降低成本，使企業能把心力花在資料分析的核心工作上。

目前Cloud Dataproc為beta版，支援以Spark 1.5及Hadoop 2.7.1為基礎建立的叢集。

和傳統本地部署以及競爭的Hadoop服務相比，Google強調Cloud Dataproc相當適合具有300個節點的叢集環境。首先，Cloud Dataproc收費方式為每顆虛擬CPU每小時1美分，成本效益在其他Cloud Platform資源之上。除了低價之外，Cloud Dataproc還包含運算成本較低的Preemptible VM執行個體（instances），可進一步降低成本。而且對於使用未滿一整個小時的用戶，Cloud Dataproc還提供以分計價的方式，最低消費只有10分鐘。

Google也強調Cloud Dataproc建立叢集超快的速度。相較於本地部署或一般IaaS服務需要花5到30分鐘來建立Hadoop或Spark叢集，Cloud Dataproc叢集的啟動、擴充及關閉，平均每項作業時間均在90秒之內。這表示使用者可以花更短時間在等待工作上。

由於是代管在Google Cloud Platform上，Cloud Dataproc內建與其他服務的整合工具，包括BigQuery、雲端儲存、Cloud Bigtable、雲端紀錄及雲端監控等，以提供更完整的服務。例如使用者可用Cloud Dataproc輕鬆將數TB的ETL原始資料倒進BigQuery以建立業務報表。而且工具對使用者來說也更熟悉，無需管理員或特殊軟體的服務，只要透過Google開發人員控制台、Google Cloud SDK或Cloud Dataproc REST API即可管理叢集及Spark/Hadoop作業。

Cloud Dataproc完成作業後還能加以關閉，以節省在閒置叢集上的花費，同時Cloud Dataproc可和雲端儲存、BigQuery及Cloud Bigtable整合。因為無需學習新API或工具，也能輕易將現有專案搬到Cloud Dataproc上。經常的更新確保具備最新版的Spark、Hadoop、Pig及Hive。（編譯/林妍溱）

熱門新聞