轉型東風吹遍全球,無數企業已經踏上了數位化轉型的旅程。想要更全面地瞭解業務情況,希望將更有吸引力的產品和服務帶給客戶,想要更懂客戶喜好和市場需求……這一切都離不開資料,以及精准快速的分析!難怪有不少企業致力於轉型為資料驅動的企業。

所以資料庫、大數據平臺、資料湖泊、分析系統、報表工具……各種相關應用輪番上陣,效果如何姑且不論,那麼多相互獨立的系統,無論日常管理維護,還是最終用戶的上手難度和使用體驗,恐怕都不會太好。
但如果能把所有這些功能都結合在一起,只用一個系統就搞定與資料存儲、分析和結果的洞察與呈現有關的一切任務,那會是一種怎樣的感覺!

認識一下 Azure Synapse Analytics 吧!它的前身是 Azure Data SQL Warehouse,相信很多童鞋已經很熟悉了,一款基於 Azure 智慧雲平臺的資料倉庫解決方案。該服務最近更名為 Azure Synapse Analytics,同時通過進一步擴展包含了大量新功能,可以説明使用者在一個介面中順利實現資料準備、資料管理、資料倉庫、大數據和 AI 等任務

作為一款致力於成為數位化企業「最強大腦」的服務,高效高彈性的架構設計、簡單易用的操作、強大的功能和澎湃的資料處理、分析能力,Azure Synapse Analytics 你可一定要親自體驗一下。

本次我們將通過《資料“科學家”必讀》系列文章帶領大家全面體驗煥然一新的 Azure Synapse Analytics。本系列共分為六期內容:

  1. 第一次親密接觸:開箱初體驗,概括瞭解 Azure Synapse Analytics 的功能與價值;

  2. 圍繞 Cosmos DB 自行 DIY 的 Azure Synapse Analytics 解決方案

  3. Azure Synapse Analytics 與 Azure Function 服務的配合使用、以及通過增量資料 CDC 對 Azure Synapse Analytics 中的資料進行更新;

  4. 借助 Azure Data Factory 工具實現資料處理水線的自動化操作;

  5. 借助 Synapse Link 的一鍵同步省略 ETL 過程,實現最新資料的直接訪問。

轉型為資料驅動的企業,需要應對哪些挑戰?

當今企業數位化轉型,企業無論是從傳統歷史資料洞察中獲取認知,或從即時資料獲得洞察認知,甚至對未來趨勢進行預測,這一過程中,AI 和資料兩架馬車都扮演著重要的角色。

然而巧婦難為無米之炊,企業又該如何簡單及時地從資料中獲得洞察來支撐決策?簡單性:是否有易用快捷的平台可以快速發現資料,分析資料並展現資料。及時性:時間是試錯成本的重要因數,是否有平台方案説明企業滿足資料即時要求。

作為企業級的資料分析平臺產品,Azure Synapse Analytics 可以説明企業用戶達成上述要求。

微軟從去年開始對 Azure Data Warehouse 進行換裝升級,首先從命名上變為 Azure Synapse Analytics,其次在產品上推出了很多重磅功能,例如 Build-In Spark 的支援,SQL On-Demand 的支援等。

如果將 Azure Synapse Analytics 看作一個資料分析平臺產品,其以資料湖為資料中心構建了一套萬花筒似的分析工具套件,覆蓋了從資料發現、ETL、分析再到展現整個資料鏈條。友好的使用體驗和一站式的資料消費模式為企業實現數位化轉型提供了很好的工具和平臺。

能有多簡單:Azure Synapse Analytics 利用統一分析體驗的強大功能生成端到端分析解決方案。Azure Synapse Studio 為資料準備、資料管理、資料倉庫、大資料和 AI 任務提供了統一的工作區。資料工程師可以使用無代碼的視覺環境來管理資料管道。資料庫管理員可以自動優化查詢。資料科學家在幾分鐘內即可生成概念證明。業務分析師可以安全地訪問資料集,並使用 Power BI 在幾分鐘內生成儀錶板……這些過程中用戶始終可以使用相同的分析服務。

能有多快捷:Azure Synapse Analytics 使用最新的運算元據隨時立即瞭解相關資訊,借助 Azure Synapse Link,可以通過簡單、低成本的雲原生 HTAP 立即、及時地深入瞭解業務。只需按一下一下即可消除 Azure 資料庫與 Azure Synapse 之間的壁壘,近乎即時地從即時操作資料存儲中獲取見解。無需複雜的 ETL 管道和額外的資料庫計算資源,同時可通過 Azure Synapse 對即時資料運行分析工作負載,而不影響作業系統。業務分析師、資料工程師和資料科學家現可使用 Azure Synapse 運行近乎即時的業務智慧、分析和機器學習管道,而不影響 Azure Cosmos DB 上事務工作負載的性能。

Azure Synapse Analytics 初步印象
首先看看 Azure Synapse Analytics 的整體架構,如下圖所示:

  • 最下層的資料層,Azure Synapse Analytics 除了支援流行的基於物件存儲構建的資料湖存儲外,也支援與資料庫產品進行直連(後稱為 Synapse Link);

  • 在資料層之上,Azure Synapse Analytics 通過資料水線工具(對 Azure Data Factory 的整合)以及多種資料分析語言的支援(如 T-SQL、Spark)構建了完整的工具套件,使使用者資料洞察變的更加敏捷高效;

  • 在最上層分析引擎層,使用者 T-SQL/Spark 的全面覆蓋及整合使用戶可以基於開發喜好自由選擇。

上述架構在 Cosmos DB 的連接方面非常有意思。Azure Synapse Analytics 聯合 Cosmos 推出了 Synapse Link 功能,實現了類似 OLTP 和 OLAP 的直通。

通常企業為滿足資料跨系統以及追求分析性能,會把 OLAP 和 OLTP 系統區分開。然而開始數位化轉型之旅後,資料驅動對於資料的新鮮度和即時性提出了新要求。傳統 OLAP 和 OLTP 資料同步存在滯後,OLTP 系統需要通過 ETL 工具將增量資料(CDC -- Change Data Capture)定期同步給 OLAP 系統。資料量、ETL 的複雜度以及 Data Warehouse 產品對於更新資料的開銷為資料即時性帶來了挑戰。

Azure Cosmos DB 在產品內部實現了 OLTP 和 OLAP 的兼顧,通過行存儲回應 OLTP 列存儲回應 OLAP,兩套存儲引擎並行並自動近乎無延遲的即時同步,下游資料倉庫可直接獲得最新版本的資料,OLTP 和 OLAP 之間同步一鍵完成。

在瞭解過 Azure Synapse Analytics 的大致架構和功能後,為了讓大家感受一跳直連的魅力,在後續文章中,我們會先為大家介紹如何通過 Azure Synapse Analytics 自行 DIY 一套解決方案,將上述 Cosmos Database 中的資料自動同步到資料倉庫中,最後再為大家介紹 Synapse Link:

在上圖中,Path 1 為 Azure Synapse Link 直通模式,Path 2 為 DIY 的解決方案。下期內容將詳細介紹 Path 2 的具體實現,敬請期待!

熱門新聞

Advertisement