企業規模化落地AI關鍵是MLOps（下）三大原因助MLOps快速興起

勤業眾信風險管理諮詢副總經理廖子毅。（攝影／洪政偉）

雖然從2014年開始，就已經出現MLOps的實踐案例，但這套AI協作的概念兩年前被重新定義，形成一股AI開發新趨勢吹進全球。

MLOps興起主要有三大原因。第一，是企業用過去的開發方法來擴大AI應用規模時，開始面臨瓶頸，Line臺灣資料工程部資深經理蔡景祥以自身經驗為例表示，過去只有自己一人開發AI時，能清楚了解每個程式開發步驟的意涵，但這種開發流程過於客製化，一旦有第二個角色要共同協作，就得相互溝通來理解每個開發步驟，徒增許多溝通成本。

勤業眾信去年發布的技術趨勢報告也提到，企業剛開始開發AI時，容易採取英雄主義作法，靠少數資料科學家包辦從頭到尾的開發流程，但這些流程高度手動、難被複製或擴張，會增加協作過程中的溝通成本，難以提升開發速度。藉由MLOps的實踐，才能讓過去自成一格的特製化開發（Exceptionalism），走向快速擴張且更有效率的專業化開發（Professionalism）。

第二，則是AI開發面臨部署上線的挑戰，讓更多企業開始採用MLOps。根據國外企管顧問公司Vantage Partners去年調查，在美國，儘管有91.5%的企業都表示正在持續投資AI，卻只有14.6%的企業已經將AI部署到生產環境，換句話說，實作了AI卻難以部署上線，就是企業應用AI的一大痛點。

IDC在2020年發布的全球AI採用度調查也發現，根據受調查的2,000多位IT或相關主管回覆，仍有約有28%的專案因缺乏專家、生產數據與整合的開發環境，最終以失敗收尾。IDC因此鼓吹，企業必須擁抱MLOps，才能更大規模的實現AI。

勤業眾信風險管理諮詢副總經理廖子毅更以身為資料科學家的開發經驗點出模型部署的難處。他解釋，雖然在AI開發的實驗階段，資料科學家可以在數周內快速訓練出良好準確率的模型，但是，一旦要落地生產環境，就需要根據現實資料進一步調校模型，還要將模型打包成預測服務，手動開發的過程可能要花費數月甚至一年以上。因此，企業得建立起持續交付、持續部署的作業流程，才能加速落地AI。

第三個促使MLOps在一年內快速成長的原因，則是受到疫情帶動大環境快速改變，導致許多部署上線的模型在一夕間不敷使用，凸顯了AI維運的挑戰。勤業眾信內部觀察，疫情期間的「新常態」，導致許多供應鏈需求預測模型，已經無法再仰賴過去的數據和假設，需要滾動蒐集企業與用戶資料，必要時更需重新訓練模型，才能維持預測服務的準確率。

業界也開始感受到MLOps市場升溫，一家MLOps軟體商DataRobot臺灣總經理蔡宜真透露，近一年來，企業對MLOps的詢問度提升，除了疫情驅動企業加速採用AI，連帶的提升對MLOps的關注，更因消費者行為的大幅改變，導致模型表現快速偏移，來詢問的企業正因這個契機重新檢視模型維運的流程，開始意識到MLOps的重要性。

更多AI廠商加入戰局，要瓜分2025年40億美元市場大餅

勤業眾信製作了一張全球MLOps版圖，整理了三大類別的MLOps廠商名單，包括全球六大AI與MLOps服務供應商、從ML平臺跨足MLOps解決方案的供應商、以及僅提供MLOps解決方案的業者。（圖片來源／勤業眾信）

MLOps概念興起後，市場上越來越多AI服務供應商投入這個市場，帶動了MLOps的聲量。比如公有雲大廠如微軟、Google以及AWS，本來就提供完整的AI開發服務，微軟更在2019年的Build大會上，率先宣布了Azure ML服務中的MLOps功能，Google以及AWS隨後跟進，就是讓開發者能透過平臺工具快速建立ML工作流，更著力於AI全生命周期的管理與監控，來加速AI產品化。

勤業眾信內部製作了一張全球MLOps版圖，除了名列三家公有雲業者，更將IBM、SAS與HPE，劃入AI與MLOps大型服務供應商的行列。

MLOps版圖更顯示，在公有雲推出服務之前，市面上也已經有些ML平臺服務供應商，提供企業從開發到維運端的平臺服務，讓企業能快速導入來開發AI應用，比如Databricks、DataRobot、Dataiku、Iguazio、C3.ai、H2O.ai等廠商；後來MLOps興起，這些廠商更進一步聚焦ML部署與維運端的工具，奠基在原本的ML平臺的基礎上提供MLOps服務。除此之外，市場上也出現了單純提供MLOps解決方案的新創企業，比如Dotscience、Algorithmia、Datmo等。

勤業眾信風險管理諮詢副總經理許梅君提供一份內部估計，MLOps市場預計在2025年達到40億美元，複合年增長率為50%，將成企業擴大應用AI的又一大關鍵市場。

除了導入相關工具與平臺，許梅君也提醒，企業需建立一套管理機制，讓AI在合規的前提下快速落地，比如資料治理的規範、資料及專案的權限管理、資安與AI風險的管理，也需透過相關規則的建立，避免AI做出違背常理的判斷或有偏見的決策，且當AI用於個人化決策的場景，更要建立可解釋性AI機制，以及人機協作進行決策的原則或方法。

「導入工具或平臺來解決局部的問題，能夠快速看見AI開發的成效，但光是這樣不能解決企業面臨的所有問題，還要建立起管理機制，帶動組織或文化的改變。」許梅君說。

不只講究ML模型自動化，AI維運也是MLOps關鍵

「過去，資料科學家部署完模型後，就認為工作已經告一段落，沒有模型維運的概念，」DataRobot資料科學家藍秀仁解釋，以前只講Model Management，聚焦開發流程中的版本管理。直到近幾年，模型上線後表現產生偏移而失效，才讓更多人認真的看待模型維運的重要性，在MLOps中，更重視透過監控並迭代更新模型，來維持預測服務的準確率。

MLOps泛指從AI開發到維運各階段的協作，若聚焦在ML部署與維運階段，涵蓋了從模型快速部署、上線、監控到重新訓練等機制。

這個階段不只要讓不同程式語言、架構開發的ML模型，能夠快速部署到生產環境，整合到系統或App來提供預測服務。預測服務上線後，也需透過監控機制來檢視模型表現，來了解部署在本地端、雲端的每個ML模型，每日新進的輸入資料是否漂移、模型的準確率是否下降、預測服務是否健康，更要能長期監控模型表現的變化趨勢，來更全面的評估是否有重新訓練、迭代更新的需求。

藍秀仁也建議，企業應在維運監控階段，納入一般常識檢查的判斷機制，像是，讓上線後的ML模型預測結果，不會違背常理或超出現實，比如若AI預測出年齡超過120歲、日薪超過千萬，或是自駕車辨識道路的信心值不夠高，就會透過一套機制來阻止決策執行。

另外，為了避免模型做出偏誤決策而不自知，企業也應設計偏誤資料的監測機制，在模型輸出不公正預測結果時，找出隱含偏見的訓練資料，再交由開發人員將偏誤資料去除，重新進行模型開發、部署更新的流程。

如何選擇MLOps工具？

勤業眾信提供了一家AI解決方案供應商Ambiata所製作的MLOps工具比較表，可做為企業評選MLOps商用與開源工具之用。這個比較表將MLOps工具分為四個類別，分別是資料與Pipeline版本控管、模型實驗版本控管、超參數調校、模型部署與監控。勤業眾信提醒，企業得先清楚了解哪一個環節有需求，例如待解決的開發痛點，再來導入相應功能的工具。

由於功能相近的MLOps軟體很多，企業也可以進一步根據自身常用的程式言語與函式庫，比如企業開發AI時，使用Python與R來開發，常用如Tensorflow、PyTorch、Keras、Scikit-learn等函式庫，來選擇可支援開發的MLOps工具導入。

在挑選工具時，也能參考GitHub上的評分星級、貢獻者或員工數量，列為挑選工具的一大考量，前者可作為該工具受歡迎程度的參考，後者則可以作為該工具能否長期支持AI開發的指標。

完整系列報導在這裡

熱門新聞