根據Gartner的定義,AI能夠從三個面向來替IT維運加值,分別是觀察(observe)、參與(engage)與行動(act),需要透過監控工具(Monitoring)、資訊科技服務管理(ITSM),以及自動化(Automation)來實現。(圖片來源/Gartner)

熱門的AI技術,不只能用來加值服務、產品或內部作業流程,越來越多企業開始用於維運IT基礎建設,尤其在歐美,近兩年興起了一股AIOps(Artifial Intelligence for IT Operations)趨勢。IDC甚至預測, 2022年時,全球IT工作負載的75%以上,都將轉變成由AI或大數據分析驅動的自動化維運作業,而且不只IT維運,還會進一步擴大延伸到OT維運層面,如邊緣端IoT設備、工廠維運管理都能靠AI來打理。

最早在2016年提出AIOps一詞的Gartner,原本是指維運越來越依靠演算法(Algorithmic IT operations的縮寫),不只是AI、機器學習,甚至連傳統大數據分析等,可以輔助IT日常維運工作的演算法都屬之。

AIOps日趨重要的原因,除了IT維運過程所生成的資料越來越多,只靠人已經無法判讀,日益複雜的IT環境也成為維運的一大挑戰。比如說,在數位轉型浪潮下,企業可能以虛擬化主機、超融合架構來擴充IT建設,或是將企業服務上雲,根據iThome 2019年的臺灣企業雲端大調查顯示,超過4成企業採用混合雲架構,形成本地端與雲端混合管理的環境,AIOps業者BigPanda自家調查數據,近半數企業常用的IT監控工具多達到十多種,而且,未來兩年還會越用越多,越來越複雜難管。

就像美國KeyBank的實際例子,KeyBank過去15年來累積了上千條人為定義的規則來判斷異常事件,更應用了超過20種的監控工具來維運不同系統,長久下來,幾乎沒有人能夠清楚釐清所有規則間的相互關係,導致IT維運成本越來越高。後來,他們決定導入AIOps相關技術,改用演算法取代舊的異常檢測方法,大量降低了誤判的警報通知,甚至將所有監控數據整合到單一平臺後,能透過AI剖析龐大數據,來找出根本原因(root cause),更有效率地解決問題,也不需要一組人力來管理20款監控工具。

不少原有提供IT維運平臺或產品的業者,或擅長大數據、AI技術的業者也紛紛跳進來投入AIOps產品的研發。諸如BMC、CA Technologies、Unisys、IBM、Micro Focus、Moogsoft、BigPanda等廠商,都陸續推出了相關的AIOps產品,像IBM全球上千家企業顧客,用AI技術自動分類的故障工單,超過了1,200萬件。

AIOps從三面向加值IT維運作業

Gartner認為,AI可以在IT維運的三個領域上發揮作用,分別是觀察(Observe)、參與(Engage)與行動(Act),企業需要透過監控工具(Monitoring)、資訊科技服務管理(ITSM),以及自動化技術(Automation)來實現。

首先,在觀察部分,傳統IT維運中,人會根據過去的經驗來定義異常事件的規則,但隨著IT基礎架構不斷擴充、維運環境變得複雜,瑣碎的規則不僅會觸發大量誤報事件,更可能忽略嚴重的威脅,而且,IT人員往往在異常事件發生後,才被動地處理問題,如何化被動為主動、甚至進一步降低問題發生機率,就是AIOps要輔助監控工具要做到的事。

比如事件關聯分析,就是透過演算法與NLP等技術來分析歷史資料,將看似無關的事件分類,進而找出事件的關聯。假設系統發現連不上http埠、CPU使用率過高以及網頁瀏覽量低於500次,這三種看似無關的情況常常同時發生,就能透過異常事件關聯演算法將這些事件群聚,進一步分析根因(Root Cause Analysis,RCA),甚至做到提前預警,如巴西教育部就是利用事件關聯分析來縮短三分之一的RCA時間,增加IT維運效率。

透過AI來觀察、監控的作法,可以從簡單的視覺化與數據分析,逐漸到複雜的異常檢測、RCA,甚至更進一步提供異常預測、異常防範與避免。IDC在2019年調查亞太地區企業,8成受訪企業已經做到了視覺化與數據分析,也有5成已導入了異常檢測、RCA等監控作法,甚至,有3成可以進行最難做到的異常防範與避免。

第二類參與面向,則是指與人、組織息息相關的AIOps。企業傳統IT大多會提供一個Service Desk管道,可能是專人電話、通報Email或故障表單網頁,給內部員工提出IT需求。在AIOps的作法上,可以改用數位助理來取代人力或網頁表單,透過NLP、OCR等技術自動分類或辨識通報事件的內容,或自動爬梳歷史紀錄,提供參考處理方法給負責故障排除的維修人員,甚至串接自動化功能來協助用戶執行簡單作業,如重置使用者密碼、安裝或更新軟體等,來更快速恢復IT功能。

最後一類是AIOps的行動類應用,這也是目前常見企業導入的一類,透過自動化來取代IT人員重複性的維運工作,包括處理、修補、健檢、聯防、部署、申請、調度等,來降低大量人工作業的成本,並釋放人力到高度手動、耗時且容易出錯的任務中。比如說,全美人壽保險透過與Service desk串接的自動事件修復功能,在7個月中節省了作業人員9,000多個小時的工作時間。

近兩年日本企業狂熱,也開始吹進臺灣的機器人流程自動化RPA(Robotic Process Automation)也正是AIOps的入門型態,不只是自動化程式控制,更進一步利用演算法、AI來優化自動化的過程,找出更好的作業方式。

Gartner在2019年時觀察,RPA是企業軟體中成長速度最快的應用,更是企業用來加快OT作業流程的關鍵工具,這也將是企業應用AIOps的未來方向。

整體來看,根據Gartner在2019年11月的市調,目前在監控工具中導入AI的應用正在迅速成長,如事件關聯分析、異常檢測、根因分析等,但實際在Service Desk中結合數位助理功能,來加值資訊科技服務管理的企業還是少數;同樣進程緩慢的,還有DevOps多部門協作開發流程的應用,Gartner估計,要到2023年,才將有40%的DevOps團隊擁抱AIOps。

相較於全球企業應用AIOps的狀況,臺灣採用的腳步更慢,IDC建議,要採用AIOps的企業,除了準備好品質佳的大數據維運資料,也要擬定階段性的導入計畫,IT維運團隊也要持續學習新技術來適應新的維運方法,更要考慮不同AIOps平臺支援的數據類型與來源是否足夠多元,能否滿足企業自身的需求等。

 相關報導  2020年CIO必看10趨勢


Advertisement

更多 iThome相關內容