Databricks推AutoML簡化機器學習模型建置

由Apache Spark技術團隊所創立的資料科學公司Databricks，發布了能夠簡化建置機器學習模型的工具AutoML，AutoML可自動化進行預處理、特徵工程，以及模型訓練與調整，用戶能完全以使用者介面來選擇資料集、配置訓練，和部署模型。

官方提到，現有許多AutoML工具都是黑盒子，用戶無法切確知道模型訓練的過程和方法，因此當需要進行特定領域的修改，或是出於監管理由，用在需要受稽核的產業時，這些工具的使用便會遭遇到困難。而資料團隊投入時間對這些AutoML工具創建的模型，進行逆向工程，則抵消了AutoML所帶來的生產力提升。

Databricks則形容自家AutoML是一個玻璃盒，對每個經訓練的模型，都提供Python筆記本，資料科學家可以在這些筆記本中，添加或是修正單元格，並且還能利用這些筆記本快速開發，不需要重新編寫一些樣板程式碼。

除了模型訓練和選擇之外，Databricks AutoML也提供方便的資料分析功能，該工具創建了一個資料探索筆記本，來提供資料集統計資訊，利用自動化來減少繁瑣的資料探索工作，Databricks AutoML可快速檢查資料集是否適合訓練，大幅減少資料科學家的時間。

AutoML也與追蹤指標和參數API—MLflow整合，並使用機器學習最佳實踐來提高團隊的生產力，從實驗頁面，用戶就可以試驗模型，並且在Databricks模型註冊表內註冊和提供模型。AutoML會產生訓練筆記本，提供所有訓練模型的程式碼，從載入資料到分組測試模型，再到調整超參數，甚至是顯示可解釋性SHAP點圖，這每一個步驟用戶都可取得程式碼。

目前Databricks AutoML進入公開預覽的階段，能平行訓練sklearn和xgboost模型，以解決分類和迴歸的問題，並且支援具有數值、分類和時間戳特徵的資料集，會自動處理獨熱編碼（One-Hot Encoding）和空值填充（Null Imputation）。

熱門新聞