數位轉型難,老牌大企業尤其難!5萬名員工的臺灣老字號金融集團如何轉型?找出答案,正是國泰金控2016年設立數位數據暨科技發展中心(簡稱「數數發」)時,賦予這個團隊的大考驗。

國泰金控的數位轉型戰略,大方向一開始就相當清楚,聚焦數據和技術,來協助全集團轉型。國泰旗下不只銀行,還有人壽、產險、證券、投信和創投等子公司,顧客總數將近1,300萬人。對國泰金控來說,數位轉型真正的難題是,如何具體落實到各子公司,能朝同樣的願景發展。

國泰金控數位數據暨科技發展中心協理梁明喬最近在臺灣資料工程年會上,揭露了過去3年以銀行為主的成果,還揭露了下一階段的方向,如何將單一轉型經驗擴大到全集團的新戰略。

國泰金控數數發中心協理梁明喬指出,最終目標就是資料即服務架構(DaaS),將資料變成一種服務。資料若沒有服務化,就無法運用到各種業務情境中。

梁明喬指出,在金控下設立數數發中心,最初有兩大目標,讓各子公司的數位跟數據的策略,從資料面、架構面、到所用技術都能一致化,由金控帶頭邁向同樣的願景發展。

3年前,數數發只有6、7位核心成員,梁明喬是其中之一。今年初快速增加到了200人規模,年中經過組織大調整後,團隊規模繼續暴增,9月底的人數達到了近500人的規模,其中的數據團隊(Data Team)就多達170人。

數數發目前分為三個主要團隊,第一個以數位服務、產品開發和設計為主的Digital Team,包括了數位行銷團隊、數位體驗設計團隊、數位平臺開發人力等。第二團隊則是Data Team,任務是從數據中運用新興科技,如大數據、雲端、機器學習,來協助業務開拓。Data Team旗下又設有資料科學實驗室(Data Science Lab),專門研究最新的資料科技或AI技術。

今年中大改組之後,數據團隊有了新任務,轉而以建立全集團「數據生態系」為目標。最後一個新設立的團隊,則是要站在金控角度,設計和規畫全集團的企業架構,「企業資訊架構也開始有專責團隊。」梁明喬表示。

甚至,國泰還打破了跨子公司間的人力組織分工,例如在170人的數據團隊中,不只有來自銀行的數據分析人力,還有來自其他子公司如人壽、代營運的數據人力,也都集中到了金控的數數發數據團隊中。雖然各自所屬的子公司不同,但這群人每天都聚集到同一個空間上班,同一公司內,不同部門坐在一起已經很難了,現在還要跨子公司將人力集中,為何非做不可?梁明喬解釋:「這對集團數位和數據轉型來說,非常重要,能建立一種數位文化。」

數數發先從銀行子公司開始著手,利用各種開源技術,打造各種數據環境,例如Hadoop、Spark、Kafka、TensorFlow等,接著設計了一個全集團一致的分析環境,再應用到各子公司,最後將各子公司的人力集中,來建立一種數據生態部落,梁明喬指出,更大的目標是讓國泰金控旗下各子公司形成一個數據聯盟。

3年前的數數發,連一套Hadoop系統都沒有,國泰只有銀行慣用的大型資料倉儲,資料源也非常多元和分散,除了資料倉儲,各業務系統也各有自己的資料庫,甚至有些資料只用紙本來保存。

國泰金控不是沒有數據團隊,但在2016年當時,各部門大多將分析團隊視為類似MIS的角色,主要任務是產出各式各樣的報表,其次則是負責資料探勘工作。尤其當時的數據團隊以業務思維為重,往往會認為資料工程人才不熟悉金融的產業知識,因而較難受到重視,所以,團隊中的資料工程人力也很少。

如何建立一個數據團隊,就是梁明喬的任務。他認為,靠平臺才能建立一套分析武器,分析人員才能發揮,不只如此,這樣的平臺還要有能力因應集團每年的數位發展和轉型需求。

但是,實務上,「不可能每年興建新平臺,也無法靠資料工程人員在自己的筆電上,訓練各式各樣的模型。」他認為,這不是比AI模型數量的競爭,而是要打系統戰,若數據團隊無法因應資料源快速增加,無法快速組合、調度一支支微服務,不斷落實到業務應用,「沒有做到這樣,就沒辦法在商業實戰中應用。」

打造數據團隊4關鍵

三年下來,梁明喬歸納出4個打造數據團隊的關鍵,簡稱為FAST(Flexibility、Agile、Scenario和Trust),建立一套彈性的數據平臺架構(而非平臺),打一個靈活變化的敏捷團隊,接著就能從金融場景中來發展各式貼近顧客服務。他認為,場景取決於定義商業的角度,但關鍵是資料源,可是資料源由受限於想要解決的商業問題,資料源和應用需求是傳統的雞生蛋、蛋生雞循環問題。他的秘訣就是「快速切入一個場景,開始往外擴大,讓資料源和平臺更穩固,形成一個可以循環的生態。」

如此一來,梁明喬表示,能讓數據團隊或甚至是全集團,在日常工作中都能經常實踐和運用到數據後,就可以建立一種相信數據的習慣,可以讓全企業或全集團都相信數據的效力,「這是國泰落實數據驅動文化的關鍵。」

彈性數據平臺架構如何設計

數數發目前發展出來的數據平臺架構,從資料輸入到輸出的數據分析流程來設計,分為了四層,包括了資料層(Data Layer)、線上產品層(Online Production Layer)、線下產品層(Offline Production Layer)和探索層(Exploration Layer)。

資料層包括了顧客資料、線上數位資料、外部資料以及來自不同產業的資料等,而線上產品層則有各種面對顧客的通路服務,網站上的數位行為機制,或是自行開發的網路爬蟲服務,還有各種資料服務。第三個線下產品層,則主要是資料處理流程的中後段,除了傳統的ETL處理和資料倉儲系統之外,數數發還建置一套資料湖,資料湖的數據還可以提取出來進行不同的ETL處理,再匯入資料倉儲或資料湖中,反覆循環再利用,另外在線下產品層中,還有一個關鍵的模組就是分析平臺,可以快速套用數據團隊建立的各種AI模型來進行分析。

最後一層的探索層,則包括了一套可以進行探索性分析的平臺,例如套裝分析軟體,或許多現成的Jupyter分析範例檔,讓分析人員可以快速套用,另外還有一套視覺化工具。後三層之間,彼此都可以透過API串連。這套架構不只可以應用到傳統的資料處理流程,資料蒐集後,儲存到關連式資料庫中,進行ETL處理,集中到資料倉儲,再進行後續利用,還可以彈性搭配不同用途,例如兩種線上服務,搭配一個線下資料分析服務,資料分析人員可以利用探索層的Hadoop原生元件來進行比較分析,並加以視覺化。數數發想要打造的是一套可以自由組合,甚至是程式化控制和自動串接的資料服務架構。

有了數據的大架構和大戰略,國泰還先解決了傳統關連式資料庫無法滿足的需求,新型態資料整合需求。數數發彙整了傳統的資料庫和所有通路的異質資料,例如上億筆信用卡授權或ATM提款記錄,或像是網站上的數位點擊行為等,採取必要的去識別化處理後,來建立了一套客戶歷程資料庫,內有五類資訊,包括了人、事、時、地、物。例如「2019-06-05 13:57:12 在信義分行開設台幣存款帳戶」、「2019-06-11 20:33:00 在ATM從台幣存款帳戶提款3,000元」,或像「2019-06-22 0:22:58 客服中心申請信用卡掛失」。

另外,還打造了一個類似臉書動態牆設計的顧客視圖功能,將一個顧客的記錄,按照事件發生時間的順序一一列出。國泰的目標是,希望當有一名顧客每天使用了不同集團子公司的各種服務通路時,能不能透過現有可用的資料,結合機器學習技術,來猜測這個顧客可能的喜好,作為後續分析的重要基礎。

舉例來說,數數發資料科學實驗室正在嘗試目前最夯的自然語言處理模型Google的BERT模型,來分析客戶歷程資料庫中的行為序列資料。BERT是Google去年底開源釋出的NLP模型,可以利用上下文關係來預測自然語言文句的下一句或下一個詞,也可補齊句子中的空白。但要如何在金融資料上運用NLP模型呢?

數數發將同一名顧客一段時間內的行為序列資料,比如上述不同時間的三個行為記錄,串起來變成了一篇短文,來描述這個顧客一連串的行為,就像流水帳日記一樣。如此一來,就可利用Word Embedding作法,將金融行為序列變成文字向量,作為NLP技術訓練模型所需的資料之用。數數發正在嘗試將多種NLP,包括BERT模型來訓練這些行為序列資料的預測模型,甚至還將成果撰寫成論文投稿。

自行研發資料工程ETL框架工具

平臺、資料都有一套系統化作法之後,考慮後不斷增加的新服務通路,甚至未來會有許多新的異質資料來源,「如何建立自動化的流程,資料工程團隊的角色非常重要。」梁明喬指出,資料工程團隊甚至必須開始自行研發ETL工具。因為現有許多開源技術,都無法完全符合國泰的使用情境,因此,數數發的資料工程團隊,開始利用大數據平臺Spark作為資料流程引擎,開發了一個名為Mole(鼴鼠之意)的ETL框架工具。

Mole框架可以提供跨異質資料庫或資料源的表對表(Table到Table)自動化資料處理,還設計了一個命令列工具,以及Mole專用的DSL(Domain-Specific Languages,領域專用語言),來提供宣告示的資料流程定義,支援JSON格式。分析人員可以自己用這些DSL指令,來描述每一次的ETL資料處理流程,甚至儲存為範本,反覆利用,這個Mole框架工具,讓ETL處理變成了更容易版本控管的程式化作業。甚至,數數發還設計了外掛機制,未來可以將常用功能,變成了Mole上的一個外掛,來處理更多新興資料源,或甚至是非金融產業的資料,都能透過Mole框架來設計、管理和執行ETL作業。

目標是資料即服務架構

「最終目標就是資料即服務架構(Data as a Serice),將資料變成一種服務。」梁明喬指出,資料若沒有服務化,就無法運用到各種業務情境中,沒辦法從底層的資料設計、中間層的分析,一路串接到前端的應用。

不同於數據平臺架構,是從資料工程和IT的角度來思考,各種IT系統、產品或服務的建置戰略,DaaS架構是一種從業務角度、資料使用者(分析人員、業務人員、決策人員)的角度,來思考的資料架構。國泰將DaaS架構,分為了三層,最下層是數據資料架構的基礎建設,中間層則是先進技術層,主要提供各種數據分析模組,例如統計分析、AI、機器學習、深度學習、NLP、Data API、推薦系統、風險分析、數位分析等都屬於DaaS中間層,而最上層是場景實踐,主要目的是達成「人機協作」,透過技術和機器,來輔助人的作業,這一層目前的成果包括了RTDM即時決策系統、ROBO智能投資服務、阿發智能客服Chatbot、RPA流程機器人等。

去年第三季,國泰透過信用卡部門和數據團隊聯手,打造了一項可以判斷信用卡即時調額的功能,稱為RTDM(Real Time Decision Management)。不用等顧客來電,一偵測到刷卡交易失敗,立即評估顧客是否信用良好,符合調額資格,若是,就主動詢問顧客是否要臨時調高額度,顧客就能再次刷卡消費。這項功能推出後幾個月,根據國泰預估,這一批信用良好符合調額資格的顧客,平均每筆刷卡交易金額,足足提高了6成。

RTDM引擎正是改用了Event Sourcing結構的設計,信用卡系統會將顧客刷卡的狀態,變成了一個事件,不論成功與否,都發布到事件平臺上。而RTDM系統會持續監聽事件平臺,一旦偵測到信用卡交易事件,再進一步分析內容,透過模型判斷,這名顧客符合臨時調額資格,就可以主動發送調整通知簡訊,詢問顧客是否要立即調整。

RTDM就是結合了新型態的資訊架構、資料處理流程和業務場景需求,整合三者才能實現出來的新服務引擎,而且可以彈性組合,能運用到各種場景的需求上。

老字號金融集團如何轉型?數數發正在努力的答案是創造數據生態循環,來驅動全集團數據轉型。透過FAST來建立資料生態系,將後端的資料治理、數據工程、客群標籤、客群探索、全通路管理等策略或機制,更容易與業務需求的功能串連,來協助其發展,這正是國泰金控從數據團隊,單一銀行應用成果,進一步要擴大到統整全集團各子公司建立數據聯盟的關鍵。文⊙王宏仁

國泰數數發數據團隊使用大量開源技術,設計了一個全集團一致的分析環境,來建立一個數據生態部落,更大的目標是讓國泰金控旗下各子公司形成一個數據聯盟。

國泰金控數位數據暨科技發展中心已發展到近500人規模,最近重新規畫辦公空間和設計,未來考慮將部分空間變成可供外部社群舉辦小型技術分享的場所。圖片來源:國泰金控

熱門新聞

Advertisement