由Apache Spark技術團隊所創立的資料科學公司Databricks,發布了能夠簡化建置機器學習模型的工具AutoML,AutoML可自動化進行預處理、特徵工程,以及模型訓練與調整,用戶能完全以使用者介面來選擇資料集、配置訓練,和部署模型。

官方提到,現有許多AutoML工具都是黑盒子,用戶無法切確知道模型訓練的過程和方法,因此當需要進行特定領域的修改,或是出於監管理由,用在需要受稽核的產業時,這些工具的使用便會遭遇到困難。而資料團隊投入時間對這些AutoML工具創建的模型,進行逆向工程,則抵消了AutoML所帶來的生產力提升。

Databricks則形容自家AutoML是一個玻璃盒,對每個經訓練的模型,都提供Python筆記本,資料科學家可以在這些筆記本中,添加或是修正單元格,並且還能利用這些筆記本快速開發,不需要重新編寫一些樣板程式碼。

除了模型訓練和選擇之外,Databricks AutoML也提供方便的資料分析功能,該工具創建了一個資料探索筆記本,來提供資料集統計資訊,利用自動化來減少繁瑣的資料探索工作,Databricks AutoML可快速檢查資料集是否適合訓練,大幅減少資料科學家的時間。

AutoML也與追蹤指標和參數API—MLflow整合,並使用機器學習最佳實踐來提高團隊的生產力,從實驗頁面,用戶就可以試驗模型,並且在Databricks模型註冊表內註冊和提供模型。AutoML會產生訓練筆記本,提供所有訓練模型的程式碼,從載入資料到分組測試模型,再到調整超參數,甚至是顯示可解釋性SHAP點圖,這每一個步驟用戶都可取得程式碼。

目前Databricks AutoML進入公開預覽的階段,能平行訓練sklearn和xgboost模型,以解決分類和迴歸的問題,並且支援具有數值、分類和時間戳特徵的資料集,會自動處理獨熱編碼(One-Hot Encoding)和空值填充(Null Imputation)。


熱門新聞

Advertisement