【強化資料治理，今年聚焦MLOps人機協作】不惜發動29年最大組織改造，玉山要打造一條鞭資料治理流程

今年初，玉山金控振奮地宣布成立法人金融事業總處和個人金融事業總處，來聚焦跨境、數位、風險管理三大策略和ESG永續發展。玉山銀行董事長黃男州更揭露，大個金將整合玉山的通路、客群和產品部門，甚至是數位金融處，來共同創造客戶價值。

這是玉山29年來最大規模的組織改造。但玉山沒明說的是，這也是他們實踐資料治理的關鍵一步。

AI內化引爆資料治理需求，轉核也是關鍵推力

為何一個資料治理，能讓玉山如此勞師動眾？

這是因為，AI已融入玉山的重點服務面，資料管理需求應勢而起。早在2006年，玉山成立資料科學團隊CRV，來分析顧客風險價值大數據，2019年更進化為智能金融處（簡稱智金處），以內部AI供應商之姿，開發各種橫跨金控的AI專案。他們自行建置兩套關鍵平臺：AI研發雲和機器學習服務平臺（即MLaaS平臺），一方面孕育新AI服務，一方面提供成熟AI模型給業管單位使用，至今營運了50、60個AI專案。

當AI內化到這種程度，資料處理就越發關鍵。玉山金控科技長張智星舉例，智金處和業管單位常遇到這類問題：「信用卡盜刷偵測模型何時要更新？需要哪些資料？是原始資料還是加值資料？這些資料來自同個部門，還是跨部門？」甚至，「模型的訓練、測試、上線和監控，是否符合金管會要求？」這些考驗，都需要一個專責團隊和資料治理框架，來梳理資料處理流程才能解決。

而去年完成的核心系統大轉換，也是玉山推動資料治理的關鍵。當時，玉山轉換核心系統，以微服務架構、中臺架構和服務API化為目標，要加速服務反應，也要降低資料交換門檻。那段期間，團隊就已意識到資料治理的不足，比如，他們能整理出原始資料、加值型資料，卻難以定義兩種資料的保管人；又或是加值型資料的欄位產生，未有明確規範，間接影響使用加值資料訓練的AI模型。

跨金控資料治理小組誕生，仿母子法制定三階資料治理規範

因此，去年8月完成核心系統轉換後，玉山一鼓作氣成立資料治理小組，正面迎戰這些問題。張智星以科技長身分擔任小組召集人，成員橫跨全金控，包括AI推手智金處和各事業部代表，以每月一次的會議，來討論資料治理議題，如資料可取性、資料權限和資料上下游管控等。資料治理小組的目標，是要理出一致的資料變動因應措施，來「一條鞭作業！」

為實現目標，他們首先制定資料治理規範。規範分為三階，第一階是資料治理政策，也就是大方向、大原則，說明資料治理的目的和管轄範圍，比如原則預設各部門要共享資料，除重大考量外，都要能提供資料給需求單位取用。

第二階是作業要點，來解釋資料品質、資料權責和資料分級，第三階則是作業說明。

張智星表示，這些規範猶如母子法，明定每個階層的所屬權限。他認為，資料治理擴大到全玉山的最簡單方法，「就是邀集各部門加入小組，共同制定一、二階規範。」

定義角色分級，組改推動資料共享

除了制定規範，玉山也引進角色分級概念。進一步來說，角色分級可分為資料擁有者、資料保管者和資料使用者，其中，資料擁有者必須負全責讓資料保持在最乾淨的狀態，而資料使用者，必須知道從何取得資料、了解資料限制，比如哪些資料能產出穩定正確的結果、哪些無法產出，或是哪類資料有所缺失、需要補值。

至於資料保管者，張智星特別注重「加值資料保管者」。因為，這類保管者必須具備原始資料的領域知識，而且要註記加值公式、寫好詮釋資料（Metadata），包括原始資料改變時，加值資料重新計算的方法，作為後續模型更新的參考依據。

不論跨部門與否，這些分級定義了各種角色的職責，但張智星認為，資料治理小組還有個資料共享的挑戰。舉例來說，不同部門一旦牽涉到特定資料，比如顧客的理財金額或房貸款項，就得跨單位協調、取得資料。

「如何幫他們協調、共用資料，也是資料治理小組的任務。」張智星進一步解釋，玉山推動29年來最大組織改造，不只要讓整體組織架構更明確、更自然，還有一個關鍵原因是，要整合KPI相互競爭的單位，打破資料共享藩籬。

定義資料分級，AI專案執行前該進行資料上下游分析

不只角色要分級，資料也需要分級。玉山治理小組將資料分為公開共用、協定共用和不能共用三種，同時按屬性，進一步將資料分為原始資料、加值型資料，以及解釋加值型資料的詮釋資料。

這些分級很重要，因為每一類都可能牽一髮動全身。張智星比喻，資料處理就像一條河，「原始資料一改變，下游加值資料就會受到衝擊，」如同河流的上下游，上游資料受到污染，下游便難以倖免，無法製造出穩定的AI模型。

也因此，資料治理應涵蓋AI專案執行前的資料來源分析，釐清所需的資料種類、來源部門，甚至考量部門間有無衝突，來確保資料能順利取得。再來是AI模型的更新條件和頻率，資料治理小組得思考模型多久更新一次、更新資料取自原始資料還是加值資料，「若是加值資料，如何根據原始資料改變而更新？有無詮釋資料說明？多久更新一次？」

舉例來說，個人5年平均收入的模型或像票據手寫辨識模型，因變化不大，一年之中適時更新即可。但信用卡盜刷偵測模型一周就得更新一次，「因為採用加值資料，再加上疫情影響、消費行為不斷改變，這些因素都得考慮進去，」他說。

不只如此，設定模型更新頻率時，也得考量更新方法，比如批次計算、即時運算，甚至要檢核加值資料的時效性和正確性。他總結，資料治理工作不外乎資料上下游分析，「往上是血緣分析，往下是衝擊分析，」如此才能確保資料品質。隨著資料治理逐漸到位，玉山今年還要力推MLOps，更著重模型上線後的表現監控。他們希望建立一套模型重新訓練、上下架的標準流程，利用回饋資料及時校正模型。

熱門新聞