微軟針對資料科學家,推出可用Python處理表格資料的工具Data Wrangler,Data Wrangler是VS Code Insiders版本的擴充套件,能夠執行資料準備、清理和視覺化工作,協助用戶辨識和修復資料錯誤,也能分析資料的品質,並將資料轉換成為需要的格式。

Data Wrangler內建的轉換和視覺化函式庫,在用戶執行資料更改時,擴充套件會自動使用開源Python函式庫,替用戶的資料操作產生程式碼,也就是說用戶可以更迅速且正確地編寫資料準備程式。

由於資料的品質會直接影響模型預測的品質,因此資料科學家通常需要花費大量的時間準備資料,在探索資料的過程,資料科學家需要編寫許多小程式碼片段,來刪除資料行或是移除缺失的數值,微軟提到,目前缺乏簡化資料準備工作的工具,資料科學家常需要到Stack Overflow搜尋程式碼片段,並且複製貼上到程式中。

Data Wrangler的互動式使用者介面,能夠替用戶快速產生程式碼,在用戶查看和視覺化Python資料分析模組Pandas資料框(Dataframes)時,Data Wrangler能夠產生目標操作的程式碼,像是用戶只要右鍵點擊資料行標題並將其刪除,Data Wrangler便可以自動產生Python程式碼來執行此操作。

另外,當資料科學家想要從Pandas資料框的資料行,創建一個新的衍生資料行,編寫自定義程式碼的過程容易出現錯誤,而Data Wrangler讓用戶只要提供輸出範例,告訴Data Wrangle希望衍生資料列的資料形式,該擴充套件便會透過人工智慧合成技術PROSE編寫Python程式碼。

現在資料科學家想要在VS Code Insiders使用Data Wrangler,可以直接從應用程式市集中下載,並且從Jupyter Notebook的Pandas資料框中啟動Data Wrangler,或是在VS Code Insiders中,選擇以Data Wrangler開啟CSV或Parquet檔案。

熱門新聞

Advertisement