Databricks發布新的資料查詢解決方案SQL Analytics,用戶可以直接在資料湖上,執行商業智慧和SQL工作負載。SQL Analytics提供專用SQL原生工作空間,以及商業智慧工具連接器,讓用戶可以使用SQL或是既有商業智慧工具,對資料湖超大量資料進行查詢。Databricks提到,SQL Analytics應用湖邊小屋(Lakehouse)架構,集結了資料倉儲的效能以及資料湖的效益,提供比傳統資料倉儲高9倍的性價比。

過去企業為了解決資料孤島的問題,便開始將關聯式資料庫的資料,移動到資料倉儲中,以進行商業智慧等分析,由於資料倉儲沒辦法處理像是原始檔案、影像、音訊、圖像、自然語言資料以及超大規模結構化資料,因此又在約莫10年前,出現資料湖的概念。Databricks提到,由於雲端服務的發展,現在雲端儲存便宜且耐久性又高,不少企業把資料科學和機器學習應用,建構在雲端上,但是傳統資料分析的需求還在,所以只好同時維護兩份資料副本。

同時維護兩份資料,會遭遇資料同步的挑戰,資料分析師和業務團隊僅能存取,經整理過後放進資料倉儲中的資料,無法使用資料湖中最新的資料。因此Databricks引進了湖邊小屋的概念,以結合資料湖和資料倉儲。湖邊小屋是一種平臺架構,透過實作類似資料倉儲的資料結構以及資料管理,並將其用於低成本的資料湖上。

SQL Analytics建構在湖邊小屋架構之上,讓用戶可以在多雲湖邊小屋基礎架構,執行商業智慧和SQL工作負載。SQL Analytics兩個重要的部分為SQL原生工作區,以及商業智慧工具連接器,SQL原生工作區可讓用戶利用SQL,來查詢資料湖泊中的Delta Lake表格,因此資料分析人員和資料科學家,都可以操作相同的資料源。Delta Lake是在資料湖中,可提供ACID交易的儲存層。

SQL原生工作區可讓分析人員瀏覽資料架構(Schema),並且將常用的程式碼,儲存成為程式碼片段,以便之後快速重新使用,同時工作區也能快取查詢結果,以便縮短後續執行時間,分析人員還可以視覺化呈現資料,並將視覺化圖表放到儀表板中,並與其他團隊成員分享。

對於許多已經在使用商業智慧工具的用戶,SQL Analytics也提供連接器,可與商業智慧工具相連接,Databricks已與500多家供應商合作,包括TableauPower BI和Looker等,都能夠整合SQL Analytics一起使用。

Databricks提到,SQL Analytics的查詢效能快速,是因為他們解決了查詢吞吐量,與多用戶支援兩個問題,SQL Analytics使用多態查詢執行引擎Delta Engine,能夠有效提高資料查詢效能,其查詢執行時間,甚至可比Apache Spark 3.0快10倍。另外,資料湖在多用戶數量同時存取時,會面臨效能低落的情況,因此SQL Analytics加入了最佳化運算叢集,可以根據查詢的用戶,擴展需要的資源。


Advertisement

更多 iThome相關內容