開源資料湖專案Delta Lake將交由Linux基金會管理

由Apache Spark技術團隊所創立的資料科學公司Databricks宣布，旗下的Delta Lake將由Linux基金會託管，致力成為資料湖泊的開放標準，而原本採用的的Apache 2.0授權許可將不會改變。

Delta Lake是一個資料湖的儲存層，簡化企業資料工程架構的複雜性，其提供ACID交易、可擴展的元資料處理等功能，以及統一了串流和批次資料處理等功能，該專案的目的，便是要解決資料湖常出現的問題。

Databricks提到，資料湖的使用，常會因為不完整的資料擷取，而造成資料損壞，而Delta Lake的ACID交易功能，則可以在多重資料串流中並行讀取和寫入資料湖，防止資料損壞問題發生，另外，資料湖的資料來源，可能無法提供完整的欄位資料或是正確的資料類型，而Delta Lake的強制結構（Schema Enforcement）功能，可以防止壞資料毀損其他資料。

由於開放性和可擴展性是Data Lake重要的設計原則，透過開放協定設計，並使用既存JSON和Apache Parquet等開放格式，將所有資料和元資料儲存在雲端物件儲存上，而這種開放性讓使用者的資料得以不被特定供應商鎖住，且對於建構資料科學、機器學習和SQL等生態系統，也極為重要。

Databricks在4月的時候開源了Delta Lake，現在已經受到了廣泛的使用，而為了進一步擴大社群，Databricks因此決定與Linux基金會合作，透過Linux基金會的影響力來發展開源專案。Databricks也與阿里巴巴、Booz Allen Hamilton、英特爾和Starburst合作，讓Delta Lake不僅能支援Apache Spark，還能同時支援Apache Hive、Apache Nifi和Presto。

接下來Delta Lake會採取開放治理的模型，鼓勵社群參與和貢獻技術，藉由長期管理框架，建立Delta Lake社群生態系，並開發資料湖中資料儲存的開放標準，以確保儲存在Delta Lake的資料，保持開放性與可存取性。

熱門新聞