Google更新雲端原生Apache Spark和Hadoop叢集服務Dataproc,可讓用戶使用新的開源工具、演算法和程式語言,來處理大量資料集,新功能還可讓用戶以個人化開發環境,建置生產系統。

這個版本Dataproc簡化開發環境,提供自動擴展和筆記本的功能,讓資料科學家可以在熟悉的筆記本環境工作,不需要更改底層資源或是與其他人競爭叢集處理資源。Dataproc自動擴展功能,用戶可以在隔離且客製化的小型叢集上工作,進行建置或是開發自定義套件等工作。

當分析工作開發完成,準備應用完整資料集運算時,用戶只要啟動自動擴展功能,就可以在相同的叢集和筆記本環境進行分析,叢集會自動擴展至處理整個資料集需要的規模,並在處理完成後自動縮小,用戶不用麻煩地搬遷工作到其他容量更大的伺服器上。Google表示,結合自動擴展和筆記本環境功能,提供用戶適當的叢集規模,以及良好地協作環境,可快速地將開發的成果過渡到生產環境中。

使用Dataproc Jobs API,用戶可以透過HTTP呼叫Jobs.submit,提交工作到現有的Dataproc叢集上。現在Dataproc正式支援新的SparkR工作類型,用戶可以記錄和監控SparkR工作,並更容易地以R程式碼建構自動化工具。

另外,Google提到,通常Spark和Hadoop框架是預處理的工具,適合創建可用於GPU深度學習模型的資料集,因此Dataproc現在可附加GPU到叢集中,讓使用者省去重新配置底層叢集資源的時間與手續。

在單個工作流程模板中,用戶可以自動化一系列混合Spark機器學習和GPU深度學習演算法的工作,當需要擴展單個GPU記憶體上的資料集時,Dataproc上提供RAPIDS框架,用戶可以使用GPU和Dataproc的功能,以API呼叫的方式啟動和控制虛擬機器叢集。

Dataproc還提供了排程刪除叢集的功能,不少模型建立與SQL查詢工作,都要花費一整天的時間,用戶可能會在開始一項長期工作後,暫時離開工作崗位甚至放假回家,雖然使用更多的運算資源,可以加速取得結果的速度,但是無人看守的工作,使用更多的資源代表可能需要支付更多的費用。現在當用戶利用Dataproc Jobs API提交工作時,可以同時使用叢集刪除指令,在空閒時間自動刪除叢集,讓用戶可以不用一直檢查叢集工作進度,並自動刪除完成工作的叢集。

熱門新聞

Advertisement