由Apache Spark技術團隊所創立的資料科學公司Databricks宣布,旗下的Delta Lake將由Linux基金會託管,致力成為資料湖泊的開放標準,而原本採用的的Apache 2.0授權許可將不會改變。

Delta Lake是一個資料湖的儲存層,簡化企業資料工程架構的複雜性,其提供ACID交易、可擴展的元資料處理等功能,以及統一了串流和批次資料處理等功能,該專案的目的,便是要解決資料湖常出現的問題。

Databricks提到,資料湖的使用,常會因為不完整的資料擷取,而造成資料損壞,而Delta Lake的ACID交易功能,則可以在多重資料串流中並行讀取和寫入資料湖,防止資料損壞問題發生,另外,資料湖的資料來源,可能無法提供完整的欄位資料或是正確的資料類型,而Delta Lake的強制結構(Schema Enforcement)功能,可以防止壞資料毀損其他資料。

由於開放性和可擴展性是Data Lake重要的設計原則,透過開放協定設計,並使用既存JSON和Apache Parquet等開放格式,將所有資料和元資料儲存在雲端物件儲存上,而這種開放性讓使用者的資料得以不被特定供應商鎖住,且對於建構資料科學、機器學習和SQL等生態系統,也極為重要。

Databricks在4月的時候開源了Delta Lake,現在已經受到了廣泛的使用,而為了進一步擴大社群,Databricks因此決定與Linux基金會合作,透過Linux基金會的影響力來發展開源專案。Databricks也與阿里巴巴、Booz Allen Hamilton、英特爾和Starburst合作,讓Delta Lake不僅能支援Apache Spark,還能同時支援Apache Hive、Apache Nifi和Presto。

接下來Delta Lake會採取開放治理的模型,鼓勵社群參與和貢獻技術,藉由長期管理框架,建立Delta Lake社群生態系,並開發資料湖中資料儲存的開放標準,以確保儲存在Delta Lake的資料,保持開放性與可存取性。

熱門新聞

Advertisement