AWS用戶現在可以更方便地利用Amazon EMR來操作Amazon S3中儲存的資料,用戶只要在最新版本的Amazon EMR安裝Hive、Spark或Presto任一元件,系統便會自動安裝Apache Hudi,能對資料進行漸增處理,在紀錄層級(Record-Level)執行插入、更新和刪除。

過去AWS用戶雖然可以使用Apache Spark、Hive和Presto之類的工具來處理和分析S3中的資料,但在部份使用情境下,資料操作仍有不少障礙,像是要符合隱私法規,執行使用者要求的被遺忘的權利,刪除特定資料,或是更改資料被使用的方式,甚至是使用串流資料插入特定資料或是更新事件等,在Amazon EMR都沒有一個有效的解決方案。

為了解決這個問題,AWS在Amazon EMR 5.28加入Apache Hudi,讓用戶不需要開發自定義的解決方案,以執行紀錄層級的插入、更新和刪除操作。Apache Hudi正在Apache孵化器中,由Uber在2016年時開發,是一個Spark函式庫,Hudi為Hadoop Upserts anD Incremental的縮寫,供使用者能夠操作儲存在Hadoop中的資料,解決資料擷取和ETL工作管線效率低落的問題。

AWS用戶可以利用Hudi執行S3中的紀錄層級的資料插入、更新和刪除,應付各種需要個別對紀錄進行增量更新的使用情境,也能建立資料集和資料表,並以Hudi管理低層的資料格式。Hudi使用Apache Parquet和Apache Avro進行儲存,而這兩種格式都已經在Spark、Hive和Presto中整合。

當用戶啟用Amazon EMR叢集的時候,只要安裝Hive、Spark或Presto其中一種元件,系統便會自動安裝並且配置Hudi,用戶可以使用Spark建立新的Hudi資料集,並插入、更新和刪除資料。AWS提到,Hudi資料集會在叢集配置的元儲存中註冊,因此Spark、Hive和Presto都可對資料集進行查詢。


Advertisement

更多 iThome相關內容