Amazon EMR現內建Hudi可簡單操作單筆記錄資料

AWS用戶現在可以更方便地利用Amazon EMR來操作Amazon S3中儲存的資料，用戶只要在最新版本的Amazon EMR安裝Hive、Spark或Presto任一元件，系統便會自動安裝Apache Hudi，能對資料進行漸增處理，在紀錄層級（Record-Level）執行插入、更新和刪除。

過去AWS用戶雖然可以使用Apache Spark、Hive和Presto之類的工具來處理和分析S3中的資料，但在部份使用情境下，資料操作仍有不少障礙，像是要符合隱私法規，執行使用者要求的被遺忘的權利，刪除特定資料，或是更改資料被使用的方式，甚至是使用串流資料插入特定資料或是更新事件等，在Amazon EMR都沒有一個有效的解決方案。

為了解決這個問題，AWS在Amazon EMR 5.28加入Apache Hudi，讓用戶不需要開發自定義的解決方案，以執行紀錄層級的插入、更新和刪除操作。Apache Hudi正在Apache孵化器中，由Uber在2016年時開發，是一個Spark函式庫，Hudi為Hadoop Upserts anD Incremental的縮寫，供使用者能夠操作儲存在Hadoop中的資料，解決資料擷取和ETL工作管線效率低落的問題。

AWS用戶可以利用Hudi執行S3中的紀錄層級的資料插入、更新和刪除，應付各種需要個別對紀錄進行增量更新的使用情境，也能建立資料集和資料表，並以Hudi管理低層的資料格式。Hudi使用Apache Parquet和Apache Avro進行儲存，而這兩種格式都已經在Spark、Hive和Presto中整合。

當用戶啟用Amazon EMR叢集的時候，只要安裝Hive、Spark或Presto其中一種元件，系統便會自動安裝並且配置Hudi，用戶可以使用Spark建立新的Hudi資料集，並插入、更新和刪除資料。AWS提到，Hudi資料集會在叢集配置的元儲存中註冊，因此Spark、Hive和Presto都可對資料集進行查詢。

熱門新聞