Google雲端Spark叢集服務Dataproc現可運用GPU加速運算

Google更新雲端原生Apache Spark和Hadoop叢集服務Dataproc，可讓用戶使用新的開源工具、演算法和程式語言，來處理大量資料集，新功能還可讓用戶以個人化開發環境，建置生產系統。

這個版本Dataproc簡化開發環境，提供自動擴展和筆記本的功能，讓資料科學家可以在熟悉的筆記本環境工作，不需要更改底層資源或是與其他人競爭叢集處理資源。Dataproc自動擴展功能，用戶可以在隔離且客製化的小型叢集上工作，進行建置或是開發自定義套件等工作。

當分析工作開發完成，準備應用完整資料集運算時，用戶只要啟動自動擴展功能，就可以在相同的叢集和筆記本環境進行分析，叢集會自動擴展至處理整個資料集需要的規模，並在處理完成後自動縮小，用戶不用麻煩地搬遷工作到其他容量更大的伺服器上。Google表示，結合自動擴展和筆記本環境功能，提供用戶適當的叢集規模，以及良好地協作環境，可快速地將開發的成果過渡到生產環境中。

使用Dataproc Jobs API，用戶可以透過HTTP呼叫Jobs.submit，提交工作到現有的Dataproc叢集上。現在Dataproc正式支援新的SparkR工作類型，用戶可以記錄和監控SparkR工作，並更容易地以R程式碼建構自動化工具。

另外，Google提到，通常Spark和Hadoop框架是預處理的工具，適合創建可用於GPU深度學習模型的資料集，因此Dataproc現在可附加GPU到叢集中，讓使用者省去重新配置底層叢集資源的時間與手續。

在單個工作流程模板中，用戶可以自動化一系列混合Spark機器學習和GPU深度學習演算法的工作，當需要擴展單個GPU記憶體上的資料集時，Dataproc上提供RAPIDS框架，用戶可以使用GPU和Dataproc的功能，以API呼叫的方式啟動和控制虛擬機器叢集。

Dataproc還提供了排程刪除叢集的功能，不少模型建立與SQL查詢工作，都要花費一整天的時間，用戶可能會在開始一項長期工作後，暫時離開工作崗位甚至放假回家，雖然使用更多的運算資源，可以加速取得結果的速度，但是無人看守的工作，使用更多的資源代表可能需要支付更多的費用。現在當用戶利用Dataproc Jobs API提交工作時，可以同時使用叢集刪除指令，在空閒時間自動刪除叢集，讓用戶可以不用一直檢查叢集工作進度，並自動刪除完成工作的叢集。

熱門新聞