圖片來源: 

國泰金控

「想喝牛奶,不用第一天就先養一頭牛。」國泰金控數發中心雲端策略發展部協理顔勝豪在國泰技術年會一登臺就這樣打趣地形容,上雲是企業必然的趨勢。國泰金控從7年前推動雲端轉型至今,就以大規模上雲為目標,從做好上雲準備、百套系統上雲練兵,到今年正式跨入雲端轉型的第三階段,採取雲端優先戰略,來加速IT的現代化發展。更結合最新的AI代理技術,打造出了一款雲端架構設計的AI助手。

早在2020年,國泰金控就積極展開雲端轉型,不只是金控總部上雲,更大的願景是要推動全集團上雲的計畫,從第一階段的雲端就緒(Cloud Ready)策略,發展出一套自己的上雲方法論,2021年開始以五年100套系統上雲為目標,來打造高安全和高可用的雲端環境,終於在2025年進入第三階段,擁抱雲端優先戰略。

國泰金控數發中心雲端策略發展部協理顔勝豪指出,雲端優先戰略是為了加速全集團IT的現代化,未來可以更大規模地上雲和用雲。

2020年啟動上雲計畫,第一階段先蹲馬步,做好上雲準備

國泰在2020年啟動上雲計畫,先從Cloud Ready策略切入,要訂出明確的未來上雲目標和方向。「Cloud Ready策略,就是要抓準上雲方向盤。」顔勝豪比喻。

在上雲轉型第一階段,國泰金控從四個切入點同時著手,基礎架構、組織人才、應用系統和管理治理,一方面進行各項應用系統的上雲評估,也展開雲端架構設計,同時建立雲端遷移計畫,以及發展配套的組織治理框架。

國泰先從國泰世華銀行開始練兵,這是國泰金控集團中第一家開始上雲的子公司,第一步先定義出雲端發展框架。因為國泰世華銀行,光是內部資訊系統就超過300套,不是所有系統都會上雲,最後先選出十多套系統先上雲,包含關鍵或非關鍵系統。

上雲之前,還得先確保資安,國泰世華銀行花了2年,先建立一套雲端安全控管制度、治理規範與資安措施,才展開系統上雲搬遷作業。

為日後大規模上雲,不只發展雲端遷移方法論,更打造雲端轉型平臺

2年前,iThome也曾報導過,國泰一開始在雲端就緒第一階段,就考量到日後大規模上雲做準備,不只訂定了大規模上雲策略,還發展了一套業界有名的上雲方法論,透過外部顧問協助,參考Gartner 5R和AWS 7 Rs雲端遷移模型的定義,依據國泰自己的未來發展需求,訂定了一套Cathay 6R雲端遷移方法論。

在這套方法論中,國泰將系統遷移方式,依據上雲模式和開發成本,分為Rehost、Re-platform、Refactor、Rewrite、Replace和Retain共6種遷移架構,並對應到IaaS、PaaS、SaaS三種不同上雲模式。

不只是停留在紙上作業的理論,國泰還將這套方法論打造成一套SaaS形式的「雲端轉型平臺」評估系統。計畫上雲的子公司,只要自己填好平臺提供的上雲評估問題,就會自動產生出一份針對該子公司上雲專案的客製化上雲劇本(Playbook),作為這個專案上雲的參考引導。根據國泰統計,透過這套平臺的輔助,大約半年可以完成一件上雲專案。

第二階段目標是五年100套系統上雲,讓集團更多子公司練兵上雲

有了方法論和上雲評估工具系統,國泰金控也在2021年定下了5年100套系統上雲的第二階段戰略目標。要以銀行子公司上雲的經驗,來協助集團各子公司更多上雲。今年底,國泰就會達成這個目標,包括了國泰金控21套、國泰世華銀行43套、國泰人壽28套和國泰產險8套系統上雲。

到了第三階段雲端優先階段,國泰將雲端視為預設的首選方案,只有不適合上雲時才會考慮其他做法。顔勝豪解釋,採取雲端優先策略,不只在地端搬上雲端的過程中解決技術債的問題,也要靠雲原生技術實現永續發展,來加速業務創新,還要擁抱現代化的資安架構,像是零信任資安。就算是必須部署到地端,系統架構設計也會採取雲原生的架構,導入微服務、容器等,以便系統日後可以上雲。  

善用生成式AI,解決雲端架構設計三大挑戰

不過,國泰全集團的系統有數百套,想要大規模上雲,除了雲端架構師人力不足之外,還有三大架構設計的挑戰,第一是如何實現敏捷開發,不只一個月多次部署,甚至有的團隊希望每週部署新版,其次是金融產業的合規審查相當嚴格,雲端架構設計也要符合許多安全、隱私、法規的規範,第三個挑戰是跨雲治理,國泰不會只靠一朵雲,而是三大公雲都會採用,如何善用不同公雲服務的特性、優點也是課題。

為了大規模上雲,原本國泰就有一個雲端轉型平臺,可以自助提供客製化的上雲遷移劇本,在2023年生成式AI技術崛起之後,顔勝豪表示,我們希望運用生成式AI,來改善系統上雲的標準化和自動化作業,因應上述的雲端架構挑戰。

他進一步解釋,因為開發團隊採取敏捷開發,導致架構迭代頻繁的挑戰,國泰希望透過生成式AI來生成雲端架構,減少開發人員反覆與架構師討論,重新設計或調整架構的時間。其次是,將法規、資安與合規要求,透過PaC(Policy as Code)的方式,自動套入到雲端架構圖的生成中。最後是,因為要支援多雲治理,希望透過生成式AI來統一架構,方便未來建立一套標準化的維運作業。國泰金控從2023年就開始實驗,如何運用生成式AI來協助雲端架構設計。

國泰金控希望運用生成式AI來解決雲端架構設計的三大痛點

單靠提示工程要求LLM繪製雲端架構圖,難以解決實務的架構需求

一開始,國泰先用提示工程,來描述架構需求,要求大型語言模型繪製出雲端架構圖。顔勝豪坦言,LLM缺乏特定知識,需要提供大量的任務提示,容易產生不精確的結果,難以處理實務上的架構需求。

到了2024年時,RAG技術崛起,國泰也改用這個技術來繪製雲端架構圖,可以增加知識庫基礎,來解決大型語言模型知識不足的問題,但是,RAG架構的做法,仍是以「單回合生成」為主,難以解決複雜任務的需求。後來,採用了AI代理技術,從單一代理到現在用多代理架構來設計雲端架構圖。

顔勝豪解釋,只靠單一代理的問題不少,像是所有需求集中到單一代理的提示詞,包括任務與限制提示等,提示指令難易維護和調整,容易導致提示管理失控,其次,將所有領域知識都整合到單一模型中,會導致知識庫結構混亂,搜尋和維護都很困難。最後一點是大型語言模型可以處理的上下文容量(Context Windows)有上限,遇到超長文本和多任務合併執行時,容易超過上下文容量限制,導致模型推理失效。所以,國泰後來採用了多代理架構來設計出一款雲端架構方案智能助手Smart Archie。  

改用多代理架構,貫穿雲端架構設計、分析、估算到交付的完整流程

國泰採取了4+1的多代理架構,由一個主代理搭配四個專職代理。採用多代理設計的好處是,雲端架構設計是一個綜合性而且需要環環相扣的成果,涵蓋了架構圖設計、評估方案、成本估算、IaC撰寫等不同任務的專職AI代理,彼此可以協作和持續溝通。

另外,國泰還採取了一個主代理(Lead Agent)的設計,來負責任務拆解與調度,讓各個專職代理各司其職,避免將所有能力都集中到單一代理上。多代理架構的另一個好處是,若有部分代理發生錯誤,也不會影響整體任務,可以大幅降低單點故障的影響範圍,來提高系統的穩定性和韌性。

顔勝豪用一句話來描述,國泰用多代理架構來打造出一個架構師團隊,稱為Smart Archie,由AI架構師協同四個子代理,貫穿了雲端架構設計、分析、估算到交付的完整流程。

國泰採取了4+1的多代理架構,由一個AI架構師主代理來協調四個專職AI代理,涵蓋雲端架構設計全流程

使用者可以透過對話機器人,用自然語言的方式,先與架構師代理(Architect Agent)說明需求。架構師代理是這個AI架構師團隊的指揮官,負責整合四款子代理,先分析需求,再分派任務給子代理,並且會監控架構生成的完整流程,來確保決策的一致和架構最佳化。這四款子代理包括了負責架構繪製的DaC Agent、進行技術分析的Solution Agent、負責成本估算的TCO Agent,以及負責產生自動化代碼的IaC Agent等四款專職代理。

DaC  Agent會以程式碼繪製架構圖的做法(Diagram as Code),自動生成雲端架構圖,可以精準描繪出不同雲端元件的關聯,像是常見的ECS、RDS、API閘道器等,作為後續技術分析和成本估算的基礎。接著交給Solution Agent來進行技術分析,這款解方代理會依據使用者需求,參考生成的雲端架構圖,輸出完整的雲端服務組合和替代方案,同時也會負責檢核這些組合和方案的合規性,確保架構符合企業策略和最佳實務的設計。

負責估算成本的TCO Agent則可以即時進行成本試算和資源優化建議,即時產生一份成本預算報告和摘要,來協助架構師掌握不同架構設計或雲端服務組合需要的預算。顔勝豪補充,每個系統上雲,成本控管也是重要議題,TCO Agent就像是負責FinOps的角色。

最後,由IaC Agent負責將最終版的雲端架構轉換成Terraform的IaC程式碼,封裝成可以部署的ZIP壓縮檔,提供CI/CD自動化交付作業所用,讓AI代理設計出來的雲端架構圖,可以落地,部署到雲端環境中。

國泰同樣採取了雲端優先策略來打造這個多代理架構師團隊Smart Archie,目前先在AWS雲端環境中,採用了Bedrock原生AI服務作為多代理實驗的主要基礎架構,採用了開源的多代理框架,由Supervisor Agent透過Lambda來協調多個子代理(Sub-Agents),四款AI代理則可以連結到Bedrock提供的大型語言模型和知識庫,來支援需要的RAG知識檢索和生成。

用生成式AI輔助開發AI架構助手,關鍵要靠情境工程和PDCA開發流程兩大策略

不只用生成式AI來打造雲端架構設計AI助手,開發過程中,顔勝豪率領的團隊,也用生成式AI來輔助開發。顔勝豪指出,實作AI協作開發的兩大關鍵策略是,情境工程和PDCA開發流程。

情境工程是提示工程的進階做法,有助於讓AI真正理解需求後再執行,在做法上,國泰會盡可能地提供完整的上下文給AI,像是要建立CLAUDE.md,來補充專案背景資訊和更詳細的需求描述,也可以提供API文件,讓AI依據規格來開發。在提示指令中,國泰團隊會用專有名詞或角色扮演的指示,快速補足行業術語的知識,像是「你是熟悉React的資深前端工程師」作為提示開場,也會使用「RWD」、「Hook」、「Above The Fold」等來描述。

最後,國泰團隊會借重AI來幫忙重寫提示指令,例如將提示指令初稿輸入到ChatGPT中,告訴他將這段需求改寫將給AI程式設計助手「Claude Code」看的版本,來優化表達方式,提高輸出的品質。顔勝豪表示,一開始撰寫的提示指令品質不見得夠好,我們會大量運用生成式AI來重構提示內容。

除了情境工程之外,顔勝豪認為,AI協作開發結合了專案管理的PDCA理論,效果相當不錯。

國泰結合情境工程做法和專案管理的PDCA流程,來提高AI協同開發的品質

在AI開發協作實作上,首先是規畫(Plan)階段,工程師先撰寫一份plan.md檔,來描述架構和功能,再開始寫程式或讓AI幫忙執行,到了執行(Do)階段,工程師依照規畫來開發,並在過程中與AI協作,逐步完成想要的程式碼。接著是檢查(Check)階段,重點是根因分析,工程師要引導AI回溯依賴脈絡,分析錯誤的真正原因,不只是修復單行的錯誤,而要指示AI協助回推出錯誤的來源、依賴關係或是設計的邏輯問題。最後是改進階段(Act),像是可以回頭優化開發專案結構的設計,用更清晰的檔案結構和命名策略,來減少AI理解的負擔,例如統一不同專案的資料夾命名規則,用功能拆分目錄等。

技術年會展示Smart Archie五大亮點

在技術年會中,顔勝豪也展示了Smart Archie如何運作,目前可以提供超過50多款架構模板,使用者可以選擇參考模板,輸入需求,AI助手會自動生成客製化的DAC程式化架構圖。接著可以進行架構圖的服務需求分析,Solution Agent會依據使用者選定的參考架構模板,以及所輸入的需求場景,輸出完整的雲端服務組合,提供與這張架構圖相關技術介紹,還會提供替代方案。生成架構圖的過程,會參照知識庫中的相關管理規範與上雲指引,來確保所用技術的選擇彈性,以及整體架構的合規性。

接著可以進行成本估算,TCO Agent 可以依據雲端架構的規格,來估算雲端資源的成本,甚至從成本角度來提供優化的建議,並且產出一份成本預估報告及成本摘要。最後,確定這一份雲端架構設計後,IAC Agent可以自動輸出完整的Terraform程式碼,架構師可以立刻下載封裝檔,放入CI/CD流程中來進行架構部署。

顔勝豪還展示了雲端架構設計助手Smart Archie的即時修改能力,如果使用者突然想要增加Redis快取機制,可以要求Architect Agent立即重新分析需求,快速回應需求變更,即時更新架構設計與解決方案,並且依據架構圖的異動,同步調整成本試算與Terraform程式碼。

整體來說,Smart Archie有五大亮點,包括了一鍵生成架構圖、智能組合雲端服務方案、內建成本與合規檢查機制,以及輸出提供可以直接部署的IaC程式碼。過去需要數小時,甚至數天的架構設計流程,如今只要幾分鐘就可以完成,不只大幅提升了架構師團隊的工作效率,也讓真人架構師能專注在更高價值的技術決策。

AI輔助雲端架構設計是第一步,未來要邁向AI化的雲端治理

雲端架構設計的AI助手,只是第一步,顔勝豪指出,未來希望能用AI整合持續優化、智能判斷和資源調度,邁向智能雲端治理。

國泰金控將雲端治理分為四個階段,需求規畫和架構評估是第一階段,後續第二階段的成本規畫與治理審核、第三階段的實作部署與自動化,甚至是第四階段的持續營運和優化,顔勝豪希望,未來可以發展成AI驅動和自動決策輔助的智能雲端治理。

雲端治理第一階段需求規畫和架構評估主要團隊是業務單位、IT單位和架構師之間的溝通,常見的痛點包括像是,需求不明確、靠經驗技術選型、跨部門溝通成本高、設計週期長。目前國泰開發的Smart Archie,可以解決部分雲端治理第一階段的痛點,像是結構化需求搜集、雲端架構技術推薦、快速架構生成等。
而針對第二階段雲端治理主要涉及財務單位、維運單位和治理委員會之間的溝通,現有痛點如手動成本估算、人工政策檢查、審核週期長、缺乏標準化流程,國泰希望理想上可以做到自動成本規畫、智能風險識別等。

在實作部署和自動化的第三階段,參與的單位則包括了DevOps團隊、SRE團隊和開發團隊,目前痛點包括了手動配置時間成本高、缺乏統一的標準,實作部署也容易與架構圖不符。目前在Smart Archie的AI子代理中,也有兩款代理可以緩解第二階段和第三階段的部分痛點,如TCO Agent和IaC Agent。不過,顔勝豪的期待更高,他可以透過AI輔助,未來可以達到自動生成IaC、自動執行Policy As Code檢核,來提升執行效率。

最後第四階段,在持續營運和優化上,不只涉及營運團隊,還有資安團隊和業務團隊,現有常見痛點包括了監控被動、成本容易爆高失控、安全風險和優化的困難。顔勝豪也希望可以透過AI來強化智能監控,提供自動優化,甚至是預測性的維護和持續改進。

從AI雲端架構師團隊,到AI驅動的一站式雲端轉型平臺

所以,顔勝豪指出,下一步,要將雲端架構設計AI助手Smart Archie,整合到原本打造的Cloud Ready Platform,成為一個AI輔助的一站式雲端轉型平臺。

國泰金控推動雲端治理的發展藍圖,要打造AI化的一站式雲端轉型平臺

在這個未來藍圖中,由下而上分為四層,包括了基礎平臺層、系統合規層、資安風控層和AI輔導層,國泰也希望可以涵蓋到一套系統上雲轉型的歷程,從評估、設計、實作、上線到維運。在基礎平臺層,可以提供像是專案管理,組織管理,後台管理,再上一層是系統合規面的功能規畫,像是雲端遷移評估,包括架構決策輔助功能、成本優化輔助功能、IaC(基礎即代碼)和PaC(政策即代碼)程式碼自動撰寫功能,還有變更審查追蹤功能等。

在資安風控上,希望則未來能提供風險評估自動化、資安框架藍圖、資安檢測等,AI輔導能力則希望能提供AI雲端顧問、AI雲端架構師、撰寫IaC的AI平臺工程師和AI雲端稽核員。
在藍圖中,國泰還計畫一站式雲端轉型平臺未來可以釋出Open API,可以串接到不同的系統上,整合DevOps、Finops和SRE的生態系工具。

2025/11/27更正啟事,原文提到分享者姓名誤植,正確應為顔勝豪。

熱門新聞

Advertisement