微軟開源了一個原為內部使用的大資料專案Data Accelerator,能進行大規模資料處理,簡化在Apache Spark上串流傳輸的工作,支援SQL以及即時查詢,不需要撰寫程式碼就能設定處理規則與設定警報。從2017年開發以來,已經大規模應用在各種微軟產品工作管線上,現在於GitHub上開源。

微軟在2017年開始發展Data Accelerator專案,為的是要處理多來源串流資料,將這些資料重新組合後,路由到不同的輸出資料池(Output Sink),以方便進行後續的分析。微軟提到,在這過程中,正規化是一個負擔沈重的工作,要在異構事件環境,捕捉和調整事件解析器,需要花費不少時間與資源。

而Data Accelerator可以幫助使用者簡化這項工作,從事件資料樣本中推斷資料的結構,並將串流中的事件寫出到各種資料儲存。微軟提到,Data Accelerator不只可以被當作事件擷取服務Event Hubs以及資料庫間的管線,還能在進行串流傳輸的時候,重塑傳入的事件,將同一事件的不同部分路由到不同的資料庫。

Data Accelerator能大幅加速在Spark上的串流工作管線建置,其隨插即用的簡單設計,使用者只要設定輸入來源以及輸出資料池,在數分鐘內就能完成管線建置。Data Accelerator支援從Eventhub和IoThub讀取資料,並將資料寫入到Azure blob、CosmosDB、Eventhub等服務。

綜合應用事件與結構,Data Accelerator可以在事件流經工作管線的時候,辨識並進行修改,分割、合併甚至是丟棄事件不需要的部分。Data Accelerator提供了配置使用者介面,以及好用的查詢和規則設計工具,讓使用者無需撰寫任何程式碼,就能設置警示或是處理資料的規則。另外,Data Accelerator還支援串流資料的複雜處理任務,不論是依變動的時間視窗處理資料,還是隨時間累加資料,用戶都能以簡單的方法操作這些進階功能。

微軟提到,Data Accelerator支援dev-test循環的快速驗證周期,讓事件查詢的實作,在部署之前就能迭代修正到可用,這可以節省大量測試工作管線處理的時間,Data Accelerator還支援SQL查詢,使用者不需要使用Scala,光用SQL就能進行複雜的查詢工作。

熱門新聞

Advertisement