Databricks宣布在其智慧助理(Assistant)加入代理模式,推出資料科學代理(Data Science Agent),主打在Notebook與SQL編輯器自動化完成從資料探索、程式碼生成與執行,到機器學習訓練與結果說明等一連串工作。官方提到,Data Science Agent目的並非取代人力,而是在治理與可追溯的前提,將發現問題到分析的流程縮短為數分鐘。此功能目前為預覽階段,需由工作區管理者啟用。

開發者在助理面板啟動代理模式後,輸入明確任務即可讓代理規畫並執行。Agent能針對指定資料表進行探索性分析,支援以表格名稱快速指向資料資產,能在Notebook或SQL編輯器生成並執行SQL或Python程式碼,遇到例外時可呼叫既有的錯誤診斷機制,嘗試修正並反覆驗證直至排除問題。

當任務包含模型訓練與評估,代理會視需求結合機器學習工作流平臺MLflow,以追蹤訓練流程並記錄結果,並可依指示調整模型類型或超參數,完成後再以重點式摘要回報分析結果或建議後續步驟。

資料科學代理以Unity Catalog統一資料管理平臺為基礎,沿用權限控制、資料脈絡與商業語義,代理在尋找可用資料表、筆記本與程式碼片段時會以使用者可存取範圍為界線。同時官方也保留使用者的控制權,在執行程式碼前,代理會請求授權,使用者可選擇僅允許一次、在當次對話持續允許,或長期允許。系統另設有保護機制以避免如誤刪資料表等高風險操作,不過,官方還是建議在涉及生產資料時,用戶應審查代理生成的程式碼與動作。

在多步驟或跨階段的分析用例,使用者可啟用Planner,系統會先生成詳細步驟計畫,並在必要時提出澄清問題,經確認後逐步執行與檢視輸出,最後整理結論。這對於需要依序進行資料清理、特徵工程、模型訓練與評估的流程,有助於明確界定每一步的輸入、輸出與評估標準,並讓團隊更容易追蹤分析脈絡。

在導入與維運面,資料科學代理管理者透過預覽入口啟用代理模式後,使用者即可直接在Notebook與SQL編輯器中操作,不需要進行額外安裝或改變工作流程。代理運作會遵循Unity Catalog的治理範圍,當資料資產的命名與欄位註解越完整,代理在探索資料與搜尋資產時的效果也越好。

Databricks也預告資料科學代理後續發展方向,包括引入MCP以擴充上下文取得的廣度,改善代理的指令記憶與可編輯性,並加速資產搜尋體驗。

熱門新聞

Advertisement