由Apache Spark技術團隊所創立的企業Databricks,現在啟動了一項新的開源專案Delta Sharing,這是用於即時安全交換大型資料集的開放協定,官方表示,Delta Sharing是第一個實現跨產品的安全資料共享協定。目前Databricks正積極與全球軟體和資料供應商,合作發展並推廣Delta Sharing。

企業存在與其客戶、供應商和合作夥伴安全交換資料的需求,以零售商為例,如此就可以和其供應商即時共享銷售資料,或是供應商也能與零售商共享即時庫存,但DataBricks提到,由於共享解決方案與廠商相關,因此資料共享便受到了限制,也對不同平臺的資料供應者與消費者帶來障礙。

而透過Delta Sharing,資料使用者就可以在Pandas、Tableau或各種實作開源協定的系統,直接連接共享資料,而不需要特別部署特定的平臺,如此便能減少存取資料的準備時間,也最大程度減少資料供應者的工作。DataBricks舉例,過去零售商要跟供應商資料分析師共享資料,分析師必須與自家IT、安全和採購團隊合作,在公司部署與零售商相同的資料倉儲解決方案,才能從資料倉儲匯出資料到資料科學工具,而這個過程可能需要歷經數個月。

Delta Sharing的目的就是要在不需複製資料的情況下,直接即時地共享資料,DataBricks指出,大多數企業的資料儲存在雲端資料湖系統,而Delta Sharing能夠讓企業安全地以Delta Lake或Apache Parquet格式共享任何既存的資料集。Delta Sharing適合大規模應用,支援TB級資料集等對傳統解決方案是一大挑戰的共享情境,Delta Sharing利用雲端儲存系統的低成本和靈活性,可靠地共享大規模資料集。

資料接收者可以直接從選用的工具中使用資料,不需要安裝新的平臺,Delta Sharing協定的設計讓大多數工具容易實作,而且因為以Parquet為基礎,該格式已經受大多數工具支援,因此要實作連接器非常簡單。DataBricks也強調了Delta Sharing的安全性,該協定能滿足用戶對隱私和法規的要求,可讓用戶單點執行授權、追蹤和稽核共享資料存取。

Delta Sharing是一個簡單的REST協定,能夠安全地分享部分雲端資料集的存取權限,其利用S3、ADLS或GCS等雲端系統,可靠地傳輸大型資料集。對資料提供者來說,Delta Sharing讓用戶可以共享以Delta Lake格式儲存在雲端上的資料表格。官方提到,Delta Lake表格其實就是Parquet檔案的集合,可以按需求將現有Parquet表格,簡單地打包到Delta Lake中。

資料提供者可以決定要共享的資料,透過執行共享伺服器來實作Delta Sharing協定,並且管理資料接收者。DataBricks在發表Delta Sharing的同時,也開源了共享伺服器實作,可供雲端供應商提供托管主機服務。當資料提供者把共享資料環境架設完成,接受者就可以使用連接器,在Pandas、Apache Spark、Rust和Python上方便地存取資料。

熱門新聞

Advertisement