微軟開源自家Spark資料串流工作管線建置工具Data Accelerator

微軟開源了一個原為內部使用的大資料專案Data Accelerator，能進行大規模資料處理，簡化在Apache Spark上串流傳輸的工作，支援SQL以及即時查詢，不需要撰寫程式碼就能設定處理規則與設定警報。從2017年開發以來，已經大規模應用在各種微軟產品工作管線上，現在於GitHub上開源。

微軟在2017年開始發展Data Accelerator專案，為的是要處理多來源串流資料，將這些資料重新組合後，路由到不同的輸出資料池（Output Sink），以方便進行後續的分析。微軟提到，在這過程中，正規化是一個負擔沈重的工作，要在異構事件環境，捕捉和調整事件解析器，需要花費不少時間與資源。

而Data Accelerator可以幫助使用者簡化這項工作，從事件資料樣本中推斷資料的結構，並將串流中的事件寫出到各種資料儲存。微軟提到，Data Accelerator不只可以被當作事件擷取服務Event Hubs以及資料庫間的管線，還能在進行串流傳輸的時候，重塑傳入的事件，將同一事件的不同部分路由到不同的資料庫。

Data Accelerator能大幅加速在Spark上的串流工作管線建置，其隨插即用的簡單設計，使用者只要設定輸入來源以及輸出資料池，在數分鐘內就能完成管線建置。Data Accelerator支援從Eventhub和IoThub讀取資料，並將資料寫入到Azure blob、CosmosDB、Eventhub等服務。

綜合應用事件與結構，Data Accelerator可以在事件流經工作管線的時候，辨識並進行修改，分割、合併甚至是丟棄事件不需要的部分。Data Accelerator提供了配置使用者介面，以及好用的查詢和規則設計工具，讓使用者無需撰寫任何程式碼，就能設置警示或是處理資料的規則。另外，Data Accelerator還支援串流資料的複雜處理任務，不論是依變動的時間視窗處理資料，還是隨時間累加資料，用戶都能以簡單的方法操作這些進階功能。

微軟提到，Data Accelerator支援dev-test循環的快速驗證周期，讓事件查詢的實作，在部署之前就能迭代修正到可用，這可以節省大量測試工作管線處理的時間，Data Accelerator還支援SQL查詢，使用者不需要使用Scala，光用SQL就能進行複雜的查詢工作。

熱門新聞