作為一款致力於成為數位化企業「最強大腦」的服務,Azure Synapse Analytics 高效高彈性的架構設計、簡單易用的操作、強大的功能和澎湃的資料處理和分析能力,能夠説明我們解決與資料準備、資料管理、資料倉庫、大數據和 AI 等方面有關的很多挑戰。
我們將通過《資料“科學家”必讀》系列文章帶領大家全面體驗 Azure Synapse Analytics。本系列共分為五期內容,本篇是其中的最後一期:
-
Azure Synapse Analytics 與 Azure Function 服務的配合使用;通過增量資料 CDC 對 Azure Synapse Analytics 中的資料進行更新;
-
借助 Synapse Link 的一鍵同步省略 ETL 過程,實現最新資料的直接訪問。
在上一期內容中,我們已經介紹了如何通過 Data Factory 工具將整個資料水線自動化。至此,我們已經可以通過 Azure Synapse Analytics 服務的內置的 ETL 能力,實現了上游 Cosmos DB 內的 Transaction 資料的增量資料(CDC)推送至下游的資料倉庫內。通過Azure Synapse Analytics類似的方式,我們可以針對不同上游資料系統CDC資料與下游系統同步。整個資料路徑中我們需要提取,轉換,再到載入更新到資料倉庫。
但實際上,Azure Synapse Analytics 目前對 Cosmos DB 提供了更加簡潔的解決方案:Synapse Link。通過 Synapse Link 可實現一鍵同步,上述資料路徑只需要簡單在產品上一鍵打開開關即可。
Synapse Link 將 Cosmos DB 內的即時資料直接暴露給 Azure Synapse Analytics 進行消費,簡化了中間進行 CDC/ETL 的過程。目前 Synapse Link 只支援 Cosmos DB SQL 引擎,未來會對更多資料庫產品進行支援。
那麼本期,我們終於開始要看看下列架構圖中所示的“Path 1”是如何實現的了!
具體操作步驟如下:
1. 在 Azure Cosmos DB 中打開 Synapse Link 功能。
2. 創建 Cosmos Container 並開啟 Analytics Store 能力。
3. 在 Azure Synapse Analytics 中創建 Cosmos 資料來源,登入 Azure Synapse Studio,選擇 Data -> Connect to external data -> Azure Cosmos DB。
4. 在 Azure Synapse 中使用 Notebooks 訪問 Cosmos DB 中的資料。需要注意目前 Cosmos Synapse Link 為預覽版,暫時只支援通過 Spark 引擎進行資料訪問,後續會支援 T-SQL 引擎。
5. 通過前面的資料模擬程式碼,添加或更新資料,再次通過 Azure Synapse Analytics 進行訪問,驗證資料即時性。
從上面的操作可以看出,整個過程非常簡單,資料的訪問過程開箱即用。後續 Synapse Link 可以更廣泛的支援主流的資料產品,還是非常值得期待的。
本系列文章到此結束,希望能幫助大家對 Azure Synapse Analytics 獲得初步瞭解,讓 Azure Synapse Analytics 助力企業在數位化轉型之路上越跑越快。
熱門新聞
2024-04-17
2024-04-17
2024-04-15
2024-04-18
2024-04-15
2024-04-15