Cloud Dataproc加入許多新的可選元件

Google為其託管Hadoop及Spark服務Cloud Dataproc加入許多新功能,使用者在安全控制上,除了GCP原生的IAM外,現在還可以使用Kerberos安全元件,Google更新Cloud Spanner和Cloud Storage的連接器,並新釋出BigQuery連接器,強化Cloud Dataproc與其他服務的互通性,也釋出了自動擴展政策API ,提供使用者控制擴展的手段。

最新的Cloud Dataproc映像檔為1.4版本,內建Apache Spark 2.4、Python 3與Miniconda 3,在映像檔1.4這個版本預設1TB磁碟大小,確保系統能維持一致的高效I/O。在Cloud Dataproc上,使用者可以指定初始操作(Initialization actions),初始操作能讓使用者客製化叢集,預先安裝工作需要的軟體,之後便可以直接發送工作,不再需要手動設定環境,執行的時機在Cloud Dataproc叢集設置完成之後,系統會在每一個節點執行初始操作。

現在Google增加了一系列新的初始操作,包含使用者可以使用開源監控工具Apache Prometheus,其中的Prometheus查詢語言PromQL,能提供使用者即時選擇並匯總時間序列資料,Google提到,這在Cloud Dataproc日誌記錄的進階時間序列分析上特別有用。需要深度學習工作的使用者,現在可以使用TonY(Tensorflow On YARN),目前支援TensorFlow和PyTorch,可以將單節點或是分散式訓練工作發布成Hadoop應用程式執行。

在創建Cloud Dataproc叢集時,除了會自動安裝標準Hadoop生態系統元件外,使用者也可以自行安裝可選元件,Google增加了可使用的元件數量,同時提供一鍵安裝的功能。這次新增的元件比較別的是Apache Druid高效即時分析資料庫,其提供分散式OLAP資料儲存,並與大資料生態系統許多工具整合情況良好。Druid元件會在主節點安裝Coordinator和Broker等服務,而在工作節點上安裝Historical與Middle Manager等服務。

在安全元件方面,Google提到,雖然許多用戶使用GCP原生的IAM實作安全控制,但回應不少用戶的要求希望能使用Kerberos,因此這次也整合了Kerberos安全元件,可以直接將Cloud Dataproc登入綁定到微軟Active Directory,阻擋在Cloud Dataproc實例上以root身份執行所有工作,還能防止同一個叢集上的用戶互相干擾。

Cloud Dataproc新加入了Component Gateway,為Cloud Dataproc核心和可選元件提供網頁端點安全存取的功能,像是Hadoop和Apache Spark所提供的網頁介面就能獲得保護,Component Gateway會自動安裝Apache Knox作為元件配置反向代理,只有擁有dataproc.clusters.use IAM權限的使用者才能簡單地存取網頁介面。

在自動化的管理上,Cloud Dataproc現在提供了自動擴展政策API,這是一個自動化叢集資源管理機制,支援叢集自動擴展。自動擴展政策本身是個可重用的配置檔案,描述叢集使用的擴展規則以及規模,也定義了擴展的邊界和頻率等,讓使用者能以高精度的方式控制叢集生命周期中的資源。

為了節省運算資源成本,Cloud Dataproc添加了增強靈活模式,適用於先占式虛擬機器以及自動擴展上。現在當Cloud Dataproc節點因為節點丟失不可用時,有狀態資料將被保留,這將能最大程度降低對現有工作影響,並允許叢集規模快速縮減,Google提到,虛擬機器的搶占可能會破壞應用程式,導致作業延遲甚至完全失敗,增強靈活模式能透過保存中介資料來緩解這些問題。


Advertisement

更多 iThome相關內容