作為一款致力於成為數位化企業「最強大腦」的服務,Azure Synapse Analytics 高效高彈性的架構設計、簡單易用的操作、強大的功能和澎湃的資料處理和分析能力,能夠説明我們解決與資料準備、資料管理、資料倉庫、大數據和 AI 等方面有關的很多挑戰。

我們將通過《資料“科學家”必讀》系列文章帶領大家全面體驗 Azure Synapse Analytics。本系列共分為五期內容,本篇是其中的最後一期

  1. 第一次親密接觸:開箱初體驗,概括瞭解 Azure Synapse Analytics 的功能與價值

  2. 圍繞 Cosmos DB 自行 DIY 的 Azure Synapse Analytics 解決方案

  3. Azure Synapse Analytics 與 Azure Function 服務的配合使用通過增量資料 CDC 對 Azure Synapse Analytics 中的資料進行更新

  4. 借助 Azure Data Factory 工具實現資料處理水線的自動化操作

  5. 借助 Synapse Link 的一鍵同步省略 ETL 過程,實現最新資料的直接訪問

上一期內容中,我們已經介紹了如何通過 Data Factory 工具將整個資料水線自動化。至此,我們已經可以通過 Azure Synapse Analytics 服務的內置的 ETL 能力,實現了上游 Cosmos DB 內的 Transaction 資料的增量資料(CDC)推送至下游的資料倉庫內。通過Azure Synapse Analytics類似的方式,我們可以針對不同上游資料系統CDC資料與下游系統同步。整個資料路徑中我們需要提取,轉換,再到載入更新到資料倉庫。
但實際上,Azure Synapse Analytics 目前對 Cosmos DB 提供了更加簡潔的解決方案:Synapse Link。通過 Synapse Link 可實現一鍵同步,上述資料路徑只需要簡單在產品上一鍵打開開關即可。
Synapse Link 將 Cosmos DB 內的即時資料直接暴露給 Azure Synapse Analytics 進行消費,簡化了中間進行 CDC/ETL 的過程。目前 Synapse Link 只支援 Cosmos DB SQL 引擎,未來會對更多資料庫產品進行支援。
那麼本期,我們終於開始要看看下列架構圖中所示的“Path 1”是如何實現的了!

具體操作步驟如下:
1. 在 Azure Cosmos DB 中打開 Synapse Link 功能。

2. 創建 Cosmos Container 並開啟 Analytics Store 能力。

3. 在 Azure Synapse Analytics 中創建 Cosmos 資料來源,登入 Azure Synapse Studio,選擇 Data -> Connect to external data -> Azure Cosmos DB。

4. 在 Azure Synapse 中使用 Notebooks 訪問 Cosmos DB 中的資料。需要注意目前 Cosmos Synapse Link 為預覽版,暫時只支援通過 Spark 引擎進行資料訪問,後續會支援 T-SQL 引擎。

5. 通過前面的資料模擬程式碼,添加或更新資料,再次通過 Azure Synapse Analytics 進行訪問,驗證資料即時性。

從上面的操作可以看出,整個過程非常簡單,資料的訪問過程開箱即用。後續 Synapse Link 可以更廣泛的支援主流的資料產品,還是非常值得期待的。
本系列文章到此結束,希望能幫助大家對 Azure Synapse Analytics 獲得初步瞭解,讓 Azure Synapse Analytics 助力企業在數位化轉型之路上越跑越快。

熱門新聞

Advertisement