Google推出Cloud AI平臺工作管線Beta測試版,讓用戶能夠簡單地部署可重複機器學習工作管線,並且提供監控、審查、版本追蹤與可再現性等功能。Cloud AI平臺工作管線主要有兩個部分,一個是用於部署和執行結構化機器學習工作流程的基礎設施,另一部分則是用於建置、除錯和共享工作管線等工具。

Google提到,在本機端開發機器學習模型雛形,與最後要部署至雲端,要處理的任務難易度不同,開發雛形的工作較單純,但是當用戶要使機器學習工作流程,具可持續性與可擴展性時,事情就變得複雜。機器學習工作流程涉及到各種彼此相依的步驟,像是資料準備、分析、訓練評估以及部署等,而且審核和可再現性等複雜問題,難以將就用一組筆電或腳本,或是其他暫時的方式來處理。

Cloud AI平臺工作管線在GKE叢集上執行,當用戶於雲端控制臺安裝時,安裝過程會自動創建一個叢集,不過也可以按需求使用現有的叢集。用戶能利用Cloud AI平臺UI來查看和管理所有叢集,並且刪除工作管線的安裝或重新安裝工作管線,也會在更新版本時,留存先前版本的狀態。

用戶可選擇使用Kubeflow Pipelines(KFP)SDK或是TensorFlow Extended(TFX)SDK,來創建工作管線。KFP SDK具有機器學習框架中立的特性,且可直接控制Kubernetes資源和共享容器化元件,而TFX SDK目前仍然在預覽階段,是專為機器學習工作負載設計,提供高階抽象元件,為Google應用可持續性和可擴展性的最佳實踐。

TFX SDK還隨附一系列可自定義的TensorFlow最佳化模板,這些模板由Google開發並於內部使用,用戶可以配置這些工作管線模板,以自己的資料建置、訓練和部署模型,並自動執行架構推斷、資料驗證、模型評估和模型分析,甚至可以自動部署訓練好的模型,到AI平臺預測服務。

在Beta版本中,Cloud AI平臺工作管線提供了工作管線版本控制,讓用戶可以上載同一個工作管線的不同版本,並在UI中分組,讓用戶能夠一起管理相關的工作流程。Cloud AI平臺工作管線也可讓用戶簡單地管理,機器學習工作流程所產生的各種產物,包括模型、統計資料以及模型評估指標等。另外,用戶還可以進行機器學習堆疊追蹤,管理模型和資料等歷史紀錄和版本,以清楚了解用來訓練特定模型的資料有哪些,或是訓練資料的統計資料。


Advertisement

更多 iThome相關內容