Databricks更新開源資料湖專案Delta Lake發布3.0版本,主要更新重點在於消除資料孤島,Databricks在新版本添加通用格式UniForm,該格式讓Delta Lake與其他開源資料湖儲存層Apache Iceberg和Apache Hudi能夠互通。

Delta Lake是由Databricks所開發,為一個資料湖儲存層,能夠簡化企業資料工程架構的複雜性,使企業高效批次和串流處理資料,提供ACID交易維持資料一致性,也使得用戶能夠變更Schema,並且自動處理Schema的演變。Delta Lake強大的索引能力,加速了資料讀取速度,用戶也能夠方便地與Apache Spark等大資料工具整合。

企業透過採用開源資料湖倉(Lakehouse)架構,可以避免被專有的資料倉儲鎖定,但是現在企業卻必須要在三種不同的資料湖開源格式Delta Lake、Iceberg和Hudi間選擇,而Delta Lake 3.0更新所加入的通用格式UniForm則能夠提高互通性,使得用戶可以同時從Delta Lake、Iceberg和Hudi工具生態系獲益。

在2019年的時候,Databricks已經將Delta Lake專案開源,目前交由Linux基金會治理,而Apache Iceberg則是由Netflix開源的資料湖表格格式,同樣提供ACID交易,並且讓用戶能夠更精細的管理資料,其核心概念包括表格、快照和分區等,這些功能都能支援增量和讀取合併操作。

而Apache Hudi則是由Uber開源的儲存層,主要用來管理在Hadoop裡的龐大資料集,Hudi支援增量查詢和插入,也讓用戶能夠儲存資料的不同版本,方便查詢歷史資料。Delta Lake、Iceberg和Hudi實作與功能雖有所不同,但主要目標皆能滿足常見的資料湖需求,包括資料一致性和大資料操作等。

Delta Lake 3.0添加的UniForm,讓Iceberg和Hudi也能高效存取儲存在Delta Lake中的資料,並自動生成Iceberg和Hudi需要的後設資料,UniForm統一表格格式,使得用戶不需要手動在不同格式間轉換,最終,Databricks希望透過UniForm,使得用戶可以自由靈活地使用Delta Lake。

熱門新聞

Advertisement