《資料科學家必讀》| 對於資料分析這件事，資料科學家、資料工程師、資料長最該知道的事？

在一間企業中，資料科學家，最在乎以下幾點：

1. 是否有一個集成的工作區（Workspace）

2. 是否能很容易地取得資料

3. 與資料工程師或資料庫管理員良好的協作體驗

4. 互動式儀表板

5. 更快的獲得資料洞見

而，資料工程師又在乎什麼呢？

1. 是否能改善 ETL 性能

2. 自動化工作流程

3. 是否能有監控與故障排除（例如自動警報、輕鬆訪問日誌）

4. 集群民主化（無伺服器）

最後，資料長或是分析副總裁在意的，又是什麼？

1. 是否有快速、具協作性的分析平台可縮短產品上市時間

2. 企業級的安全性（例如加密、端到端認證、Role-based 權限管理、數據合規性）

而這些需求，都可以在 Azure Databricks 中，讓資料科學家、資料工程師與資料長達到他們各自的目標。

以下的問題，也許身為上述角色的您也曾想過：
1. 您是否想持續從所有 IoT 設備或網站點擊流日誌捕獲資料，並即時地處理資料？

2. 您是否正在評估領先的機器學習工具可將任何規模的資料進行組合，且可大規模構建和部署自訂機器學習模型？

3. 您是否正在尋找機器學習生命週期管理工具？能夠加速和管理端到端機器學習生命週期，以生成、共用、部署和管理機器學習應用程式？

Azure Databricks，是連接資料科學家與企業 AI 工具的最佳橋樑。

什麼是 Azure Databricks？

Azure Databricks 是基於 Apache Spark 的快速、簡單、協作型分析服務。已針對 Microsoft Azure 雲服務平臺進行優化。微軟與 Apache Spark 的創建者一起設計了 Databricks，並將其與 Azure 集成以提供一鍵式安裝、簡化的工作流程以及互動式工作區，從而使資料科學家、資料工程師和業務分析員可以緊密合作。

使用大資料管道時，原始或結構化的資料將通過 Azure 資料工廠以批的形式引入 Azure，或者通過 Kafka、事件中心、IoT 中心進行准即時的資料流。此資料將駐留在 Data Lake（長久存儲）、Azure Blob 存儲或 Azure Data Lake Storage 中。在運行分析工作流的過程中，用戶可以使用 Azure Databricks 從 Azure Blob 存儲、Azure Data Lake Storage、Azure Cosmos DB 或 Azure SQL 資料倉庫等多個資料來源讀取資料，並使用 Spark 將資料轉化為前所未有的見解。

基於 Apache Spark 的分析平臺：Azure Databricks 包含完整的開源 Apache Spark 群集技術和功能。Azure Databricks 中的 Spark 包括以下組件：

Spark SQL 和 S：Spark SQL 是用於處理結構化資料的 Spark 模組。資料幀是已組織成命名列的分散式資料集合。它在概念上相當於關係型數據庫中的表，或 R/Python 中的資料幀。
流式處理：即時資料處理和分析，適用於分析與互動式應用程式。與 HDFS、Flume 和 Kafka 集成。
MLlib：由常見學習演算法和實用工具（包括分類、回歸、群集、協作篩選、維數約簡以及底層優化基元）組成的機器學習庫。
GraphX：圖形和圖形計算，適用於從認知分析到資料探索的廣泛用例。
Spark Core API：包含對 R、SQL、Python、Scala 和 Java 的支持。

在雲中完全託管的 Apache Spark 群集：Azure Databricks 在雲中擁有安全可靠的生產環境，由 Spark 專家進行管理和提供支援。可以：

在幾秒鐘內創建群集。
動態自動擴展和縮減群集（包括無伺服器叢集）並在團隊中共用群集。
通過 REST API 以程式設計方式使用群集。
使用基於 Spark 的安全資料集成功能，在無需集中化的情況下統一資料。
即時獲得每個版本中的最新 Apache Spark 功能。

Databricks 運行時構建在 Apache Spark 的基礎之上，並且是對 Azure 雲原生構建的。

與“無伺服器”選項一樣，Azure Databricks 完全消除了設置和配置資料基礎結構所存在的基礎結構複雜性以及所需的專業知識。“無伺服器”選項可説明資料科學家以團隊形式快速反覆運算。
對於關注生產作業性能的資料工程師而言，Azure Databricks 通過 I/O 層和處理層（Databricks I/O）的各種優化提供了一個更快速、更高效的 Spark 引擎。

實現協作的工作區：通過協作和集成式環境，Azure Databricks 簡化了在 Spark 中流覽資料、製作原型和運行資料驅動型應用程式的過程。

通過簡單的資料流覽確定如何使用資料。
在以 R、Python、Scala 或 SQL 編寫的筆記本中記錄進度。
幾步內即可實現資料視覺化，可使用熟悉的工具，例如 Matplotlib、ggplot 或 d3。
使用互動式儀錶板創建動態報告。
在使用 Spark 的同時與資料交互。

企業安全性：Azure Databricks 提供企業級的 Azure 安全性，包括 Azure Active Directory 集成、基於角色的控制，以及可保護資料和業務的 SLA。

與 Azure Active Directory 集成後，可以使用 Azure Databricks 運行基於 Azure 的完整解決方案。
Azure Databricks 基於角色的訪問可以細化用戶對筆記本、群集、作業和資料的許可權。
企業級 SLA。

Azure Databricks 解決方案結構

1. 大資料體系結構即時分析輕鬆從即時流資料中獲取見解。持續從所有 IoT 設備或網站點擊流日誌捕獲資料，並即時地處理資料。

2. 高級分析體系結構使用領先機器學習工具將資料轉化為可行見解。通過這種架構，可將任何規模的資料進行組合，且可大規模構建和部署自訂機器學習模型。

3. 機器學習生命週期管理利用 Azure Databricks、MLflow 和 Azure 機器學習加速和管理端到端機器學習生命週期，以生成、共用、部署和管理機器學習應用程式。

為什麼選擇 Azure Databricks

1. 開源版本不具備的功能

Databricks 工作區：互動式資料科學與協作。
Databricks 工作流：生產任務和工作流程自動化。
Databricks Runtime。
Databricks I/O（DBIO）：優化的資料訪問層。
Databricks 無伺服器：完全託管的自動調優平臺。
Databricks 企業安全（DBES）：端到端的安全性與合規性。

2. 加強生產力

快速啟用：只需點擊一下，即可啟動新的 Spark 環境。
與 Power BI 的豐富集成能幫助您十分有效地分享見解。
利用統一的工作區幫助分析團隊改善彼此之間協作。
與其餘 Azure 平臺產品服務的原生集成，加快創新速度。

3. 基於最合規的雲平臺而構建

與 Active Directory 的內置集成可簡化安全性和身份控制。
使用顆粒級用戶許可權實現對 Azure Databricks 的筆記本、集群、作業和資料的存取控制。
提供強大的技術支援、合規性和 SLA，在可信雲平臺上放心構建。

4. 無限可擴展

可在全球範圍內不受技術限制地進行大規模運營。
使用目前最快的 Spark 引擎加快資料處理速度。

快速入門

如果您想要借助微軟超高性能 Spark 大資料分析服務，加快資料驅動的企業創新，請參考以下步驟，即刻開啟 Azure Databricks 體驗之旅。

1. 註冊 Azure免費帳戶，獲得即時存取權限

2. 參閱微軟官方文檔，瞭解如何使用 Azure Databricks

3. 流覽快速入門，即刻在 Databricks 中創建 Spark 群集

熱門新聞