AWS現在讓用戶在Amazon EKS上部署Amazon EMR,這是一種新的EMR部署選擇,使得開源大資料框架,能夠獲得EKS上自動化配置與管理的方便性,而且用戶還可在同一個EKS叢集上,同時運作Spark與其他類型的應用程式,以提高整體資源的利用率,並簡化基礎設施管理工作。

Amazon EMR提供Apache Spark、Hive、HBase、Flink、Hudi和Presto等框架,讓用戶可以執行各種大資料工作負載,EMR會自動配置和擴展這些框架,並使用EC2執行個體類型,以最佳化速度與價格需求。而部分用戶則在EKS上,自己管理Apache Spark框架,以靈活調度大資料工作負載,但無法獲得EMR安裝和管理框架的方便性。

因此現在AWS讓用戶可以將EMR應用程式,部署到EKS叢集上,與其他類型的應用程式一起運作,這種方式讓所有工作負載,都可以共享資源,並且讓用戶以標準化的方式,統一管理和營運應用程式。而在EKS上執行的EMR,也可以獲得在EC2上運作的好處,像是使用最新框架、效能最佳化的Runtime,或是用於除錯的Spark使用者介面等。

EMR會自動將應用程式、大資料框架以及預建置的連接器,都打包進容器中,並把應用程式部署到EKS叢集上,自動管理日誌記錄和監控運作狀況,官方提到,與EKS上的標準Apache Spark相比,EMR提供3倍效能的最佳化Spark Runtime。

AWS在其開發工具中,也整合了這項新功能,用戶現在可以使用Apache Airflow、Amazon EMR Studio筆記本、AWS CLI和AWS SDK來提交分析應用程式,AWS開發適用EMR的Airflow Operator,用戶可以在自我託管的Airflow中,使用該連接器,或是用戶也可以在EMR Studio網頁IDE,執行資料分析和資料工程等任務,透過EMR Studio的使用者介面,就可以將筆記本程式碼,提交到EKS上的EMR叢集。

熱門新聞


Advertisement