IDC在全球資料趨勢白皮書「Data Age 2025」預測,2025年全球新增資料量將達175 ZB,成長主力來自影像監控、物聯網(IoT)裝置資料、詮釋資料(Metadata)和生產力資料。Gartner在小型調查裡也發現,高達66%的受訪者期望在2020年之前部署5G,主要需求在於物聯網、通訊和視訊應用。

換言之,對企業組織而言,資料量及來源早已不成問題,主戰場將是分析及應用,但隨著新興服務帶來的大量串流資料,這也是目前最為棘手的領域。尤其當前人工智慧水漲船高,即使引進機器學習、深度學習等新技術,要在有限時間處理解析異質管道、源源不斷的巨量資料,並轉化為助力企業的決策或行動,仍然形同不可能的任務。

源於Apache Spark的Databricks採用Spark叢集運算架構,則以獨特的記憶體內運算機制,提供比Hadoop更快100倍的速度,最適合用來處理大量而複雜的資料運算。也正因為如此,Apache Spark和Microsoft聯手打造的Azure Databricks,成為連結資料科學與企業AI工具的最佳橋樑。

服務整合、協同合作的先進分析平台

Azure Databricks是針對Azure雲端服務平台進行最佳化的Azure Spark分析平台,透過一鍵式設定、順暢工作流程、互動式工作區等快速又簡單的特性,為資料科學家、資料工程師、企業分析師提供前所未有的協作環境。

舉例來說,互動式工作區可讓團隊成員在共用專案進行共同作業和註解。此外,Azure Databricks支援多種語言和程式庫如Python、Scala、R、Java和SQL,連MLlib、GraphX也涵蓋在內,企業團隊以現有技能即可展開專案建置。

更重要的是,Azure Databricks獨具與Azure服務無縫整合的多重優勢。首先,在安全性和可靠性部分,Azure Databricks可享有Azure提供的企業級安全機制和服務等級保證(SLA),例如:整合Azure AD進行單一登入。

在資料服務部分,Azure Databricks可輕鬆整合各種資料存放區,包括Azure SQL資料倉儲、Azure Cosmos DB、Azure Data Lake Storage、Azure Data Factory和Azure事件中樞,以及互動資料視覺效果工具Power BI,可望強化對資料倉儲和即時分析的支援。

時、地、物的整合分析與決策,年省數千萬美元

舉例來說,殼牌公司(Shell)在全球石油和天然氣產業穩居領導地位,由於旗下許多作業地點交通不便,因此全球據點皆保存大量備用零件以確保運作不中斷,但這些價值高達10億美元、多達3000種以上的備用零件也造成庫存和供應鏈管理的嚴峻挑戰。

殼牌公司以Databricks建立雲端原生的統合分析平台,相較於原先已大幅提升性能的內部伺服器,庫存分析及預測的模擬運算時間從48小時大幅縮減為45分鐘,同時節省了投資基礎架構的TCO,提升運作效率和敏捷度。

此外,單一的互動式工作空間強化了團隊的協同合作,成員可同時對相同資料或模型進行作業,自動化的分析工作流程則可輕鬆預測零件的採購時點、存放期間及存放地點。殼牌公司在全球部署以Databricks打造的庫存優化工具,每年可節省數千萬美元的費用。

戴姆勒汽車公司(Daimler)則是將大數據平台從內部機房全面移轉到Azure雲端,目前有高達九成的分析應用都是採用Azure Databricks和HD Insights來執行,該公司更規劃透過自助服務工具,將AI與分析服務推廣給更多一般使用者。

放眼全球產業,絶大部分都已化身資料管理者的角色,從金融服務、醫療保健、零售到製造,甚至是媒體和娛樂產業都包含在內。運用Azure Databricks,則能協助這些產業打造現代化的資料倉儲,執行先進與即時分析,加速落實大數據和人工智慧應用,並轉化為實質的經營成效。


Advertisement

更多 iThome相關內容