Google添加Cloud Dataproc可選元件，更完善支援自動化與先占式運算資源

Cloud Dataproc加入許多新的可選元件

Google為其託管Hadoop及Spark服務Cloud Dataproc加入許多新功能，使用者在安全控制上，除了GCP原生的IAM外，現在還可以使用Kerberos安全元件，Google更新Cloud Spanner和Cloud Storage的連接器，並新釋出BigQuery連接器，強化Cloud Dataproc與其他服務的互通性，也釋出了自動擴展政策API ，提供使用者控制擴展的手段。

最新的Cloud Dataproc映像檔為1.4版本，內建Apache Spark 2.4、Python 3與Miniconda 3，在映像檔1.4這個版本預設1TB磁碟大小，確保系統能維持一致的高效I/O。在Cloud Dataproc上，使用者可以指定初始操作（Initialization actions），初始操作能讓使用者客製化叢集，預先安裝工作需要的軟體，之後便可以直接發送工作，不再需要手動設定環境，執行的時機在Cloud Dataproc叢集設置完成之後，系統會在每一個節點執行初始操作。

現在Google增加了一系列新的初始操作，包含使用者可以使用開源監控工具Apache Prometheus，其中的Prometheus查詢語言PromQL，能提供使用者即時選擇並匯總時間序列資料，Google提到，這在Cloud Dataproc日誌記錄的進階時間序列分析上特別有用。需要深度學習工作的使用者，現在可以使用TonY（Tensorflow On YARN），目前支援TensorFlow和PyTorch，可以將單節點或是分散式訓練工作發布成Hadoop應用程式執行。

在創建Cloud Dataproc叢集時，除了會自動安裝標準Hadoop生態系統元件外，使用者也可以自行安裝可選元件，Google增加了可使用的元件數量，同時提供一鍵安裝的功能。這次新增的元件比較別的是Apache Druid高效即時分析資料庫，其提供分散式OLAP資料儲存，並與大資料生態系統許多工具整合情況良好。Druid元件會在主節點安裝Coordinator和Broker等服務，而在工作節點上安裝Historical與Middle Manager等服務。

在安全元件方面，Google提到，雖然許多用戶使用GCP原生的IAM實作安全控制，但回應不少用戶的要求希望能使用Kerberos，因此這次也整合了Kerberos安全元件，可以直接將Cloud Dataproc登入綁定到微軟Active Directory，阻擋在Cloud Dataproc實例上以root身份執行所有工作，還能防止同一個叢集上的用戶互相干擾。

Cloud Dataproc新加入了Component Gateway，為Cloud Dataproc核心和可選元件提供網頁端點安全存取的功能，像是Hadoop和Apache Spark所提供的網頁介面就能獲得保護，Component Gateway會自動安裝Apache Knox作為元件配置反向代理，只有擁有dataproc.clusters.use IAM權限的使用者才能簡單地存取網頁介面。

在自動化的管理上，Cloud Dataproc現在提供了自動擴展政策API，這是一個自動化叢集資源管理機制，支援叢集自動擴展。自動擴展政策本身是個可重用的配置檔案，描述叢集使用的擴展規則以及規模，也定義了擴展的邊界和頻率等，讓使用者能以高精度的方式控制叢集生命周期中的資源。

為了節省運算資源成本，Cloud Dataproc添加了增強靈活模式，適用於先占式虛擬機器以及自動擴展上。現在當Cloud Dataproc節點因為節點丟失不可用時，有狀態資料將被保留，這將能最大程度降低對現有工作影響，並允許叢集規模快速縮減，Google提到，虛擬機器的搶占可能會破壞應用程式，導致作業延遲甚至完全失敗，增強靈活模式能透過保存中介資料來緩解這些問題。

熱門新聞