BBVA在資料平臺的資料開發層設置了九個護欄機制,分別對EMR服務和AWS Glue服務設置了7個和2個護欄。針對使用者層級,BBVA設置了33個護欄機制,分別針對SageMaker、Athena、AWS Glue、QuickSight、EC2、Availability Sandbox、Aurora Serverless、AWS Budgets等八項常用服務設置護欄。圖片來源/BBVA

「資料平臺正式上線後最重要的事,就是控管成本。」西班牙對外銀行全球資料架構主管Federico Esteban在一場活動上強調。

為了控管資料平臺上雲後的成本,西班牙對外銀行(BBVA)成立了一個名為FinDataOps的部門,延伸自FinOps的概念,團隊僅專注在控管資料領域的上雲成本。

這個部門負責的工作包含六大項,第一是要協助財務部門進行預算編列和管理帳單。Federico Esteban解釋,按使用付費(pay-per-use)對企業來說是全新的概念,財務部門過去不熟悉這種計費模式,因此,FinDataOps團隊要負責協助財務部門規畫策略,制定預算和預估來年的雲端支出。

第二項工作是將資料平臺上雲的成本可視化。「這在任何FinOps策略中都非常重要。」Federico Esteban強調,他們花了許多心力來讓成本可視化,特別要讓資料平臺的使用者了解自己在使用平臺的過程中,產生了多少成本,「讓他們知道自己的行為帶來多少支出,他們才會正確使用資源。」他說。

第三則是制定治理模型,清楚定義FinDataOps中所需的流程、角色和各部門分工職責。第四則是制定成本防護機制,包括設計護欄機制和定義預警門檻,避免因使用者錯誤使用資源,出現不必要的成本,並讓使用者符合企業制定的FinOps政策。

第五,是定義出資料平臺的最佳使用案例,根據不同業務需求和使用角色設計不同使用方式,協助使用者提升資源使用效率,並建立使用者對成本影響的認知。

例如,每當有新的服務要部署在沙盒環境時,FinDataOps會先分析、設計適當的護欄機制,來確保每項服務都建立了最佳的成本控管機制。最後則是持續以成本效率為導向,來持續改善資料平臺的使用。


在BBVA的ADA平臺中,每個沙盒都必須受到嚴格的預算控管。使用者要先透過成本計算工具與沙盒控制臺和儀表板等工具,向財務部門提交年度預算和預估資源使用狀況的報告。財務部門確認細項後,才授權每個沙盒的預算額度。最後由FinOps團隊將核准預算紀錄到ADA控制臺後,才能啟用沙盒。

當使用者開始在沙盒中消耗雲端資源後,平臺會持續監控預算使用狀況。一旦達到特定的預算使用門檻(例如20%、40%、60% 等),ADA控制臺會顯示警示通知,並同步發送通知給使用者。使用者可以透過各種成本控管工具,來分析預算爆增的原因。

若預算用量超過原訂預算的200%,平臺會自動關閉沙盒。使用者必須先釐清預算爆漲原因,重新調整預算後,FinOps團隊才會重啟沙盒。圖片來源/BBVA


FinDataOps作法一:成本保護機制

Federico Esteban進一步揭露了BBVA如何避免上雲費用超支的成本保護作法。

針對分析和機器學習服務,BBVA建立了兩種成本護欄機制。一種稱為預防型,BBVA會透過IaC自動化腳本或服務目錄表等工具建立預防型護欄,當使用者申請資源或建置雲端服務時,這類護欄機制就會啟動。

例如,限制Amazon EMR叢集中以Java程式執行的任務,或限制如Amazon Athena查詢平臺服務每次查詢能處理的資料量。

另一種護欄機制則稱為偵測型,透過CloudWatch、CloudTrail等日誌、追蹤或時間戳記工具,來即時監控雲端服務的實際執行情況,偵測異常使用行為。例如,當某項資源使用量達到預設的最高值,系統就會觸發警示,強制中止執行中的任務。

BBVA的做法是,透過Lambda服務來自動觸發檢查機制,若偵測到正在執行的EMR任務數量超過門檻,系統就會發送電子郵件警示通知,同時傳送通知至存取管理服務,要求暫時拒絕執行EMR任務,避免資源快速被消耗。

另一方面,BBVA也區分出資料平臺中不同架構的風險,設計了相應的成本控制措施。

他們依據風險層級,將平臺功能分成三個區域,分別是由技術團隊操作的底層核心平臺區、資料工程師匯入資料流程的中層開發區,以及資料分析師和資料科學家等一般使用者操作的上層業務沙盒區。

Federico Esteban解釋,由於一般使用者不會直接操作核心平臺區,出錯風險相對較低。

相對起來,中層的開發區風險則較高,「因為每天會有數百至數千位資料工程師在中層開發超過上千條資料匯入流程。」Federico Esteban解釋,即便資料工程師具備一定的技術能力,但BBVA仍然在中層資料平臺開發區部署了九道護欄機制,例如自動偵測特定任務執行的時間是否過長,若超過限制,平臺則會強制關閉服務運作,避免資源被過度浪費。

而上層的業務沙盒區則是風險最高的區域,「因為有成千上萬來自各業務部門的使用者。」Federico Esteban解釋,這些使用者多數不具備技術背景,在使用平臺時較容易出錯,造成資源浪費。這是業務沙盒區風險最高的主因。

在這塊區域中,BBVA針對每項使用者會用到的服務設置護欄機制。例如,限制Amazon Athena單次查詢的資料處理量,若查詢超過上限,平臺則會自動終止服務。

不過,即便如此,BBVA的財務部門仍然擔憂預算失控問題,例如,工程團隊或業務部門使用者沒有即時停止某個正在超支的沙盒實驗。

因此,BBVA針對沙盒環境設計了專門的護欄機制,能即時監控每個沙盒的預算使用情況,當用量達到 40%、50%和100%時,平臺會自動發送警示通知給使用者。

若預算使用量達到200%,平臺則會自動暫停沙盒環境的所有任務。使用者事後需要檢查預算飆升原因,調整相關預算後,才能重啟沙盒。

FinDataOps作法二:成本可視化

針對資料平臺上雲的成本可視化,BBVA除了運用雲端服務來控管成本,還有自行打造一套儀表板工具,讓資料平臺使用者可以清楚觀察自己的花費,大至事業群的花費,小至單一部門的花費,甚至各個使用者的開銷都能查詢。使用者也能觀看各個使用者或各單位使用的服務種類。

這套儀表板其中一個特別的功能,是能比對不同資料平臺使用者或業務部門的資源使用效率,來找出可供大家參考的學習榜樣。

另外,BBVA還有設置一個名為沙盒負責人的角色,專門負責監控儀表板,確保資料平臺的使用情形,若發現某位使用者操作發生問題,他們就會主動介入,協助處理問題。

熱門新聞

Advertisement