能通吃Hadoop、Spark、Kafka等開源框架的微軟Azure雲端大數據平臺HDInsight,近日該平臺上釋出了Spark除錯工具包,可以支援Spark 2.3版及未來的新版本。搭配此款除錯工具包,可以將Spark任務的工作圖表、資料流予以視覺化,讓Spark開發者處理資料管理、資料取樣、監控及診斷任務時,更為順利。

微軟也公告,這款Spark除錯工具包未來會釋出更多新功能,包含關鍵路徑分析、Data Skew及Time Skew問題分析等。

現在Spark除錯工具包已經內建在HDInsight Spark歷史紀錄伺服器,從Azure Portal進入的開發者,只要點選叢集儀表板、Spark歷史紀錄伺服器的選項,就能存取功能。

在HDInsight中的Spark歷史紀錄伺服器(Spark History Server),微軟現在新增了兩個新功能,分別是Graph Tab及Data Tab。首先是Graph Tab,提供使用者視覺化的互動體驗。例如,Spark工作圖表會列出任務執行的細節,包含各階段中資料的輸入、輸出資訊,開發者可以重新回放(playback)功能,重現完整的任務程序。藉此功能,可以進一步診斷工作流程中的效能表現、資料處理時間,找出每個流程中出現的離群值,改善應用程式的流暢度。

再者是Data Tab功能,支援開發者利用CSV格式,匯出輸入、輸出、搜尋或者URL等數據,例如,資料科學家可以下載部分取樣數據,在本地環境進行除錯、執行任務。

 

微軟這次推出的除錯工具包,當中一個新功能是回放(Playback)。系統會列出完整的任務流程,在頁面選單中,開發者可以指定Job ID、呈現資訊(如資料讀取、寫入)。藉此,系統就會重現流程,開發者可以觀察流程中的瓶頸為何,進而改善效能。圖片來源:微軟
 

熱門新聞

Advertisement