
西班牙對外銀行採用資料湖倉(Data lake house)和資料網格(Data Mesh)架構打造雲端資料平臺。平臺架構可分為五層,分別有資料注入層、資料儲存層、資料治理層、資料處理層,和資料使用層。圖片來源/BBVA
西班牙對外銀行(BBVA)在2022年底啟動了一項大型專案,要花3年,將部署在歐洲和美洲兩地的地端資料平臺遷移上雲。這個專案分三階段推動,2023年,他們先進行準備作業,包括先在雲端上建立新的資料平臺。2024年,BBVA開始進行遷移工程,到2025年才正式關閉所有地端的資料平臺。
先打造雲端資料平臺
在第一階段,BBVA先在雲端環境建立新的資料平臺。他們採用資料湖倉(Data lake house)和資料網格(Data Mesh)架構打造資料平臺。平臺架構可分為五層,分別有資料注入層、資料儲存層、資料治理層、資料處理層,和資料使用層。
資料注入層的工具可以從多種資料來源擷取資料,傳送到資料儲存層,一天要處理數萬次的資料傳輸作業。
在資料儲存層中,BBVA為了確保雲端和地端的資料一致性,採取了分區儲存的設計,將依資料可用的成熟度區分四類來儲存,分別是登陸區(Landing)、原始區(Raw)、可信任區(Trusted)與可分析區(Curated)。資料分區儲存後,再透過雲端工具來驗證資料。
在儲存層驗證資料後,資料治理層,會負責整合資料目錄,並管理雲端和地端的資料存取權限設定。資料處理層,則是專門進行大規模的批次處理,例如IFRS9報表等需要大量運算資源的業務需求。
最後,經過驗證處理後的資料會進入資料使用層,提供給資料分析師、資料科學家或業務單位使用。在資料使用層中,BBVA設置了超過250個沙盒環境,每個業務單位都擁有一區獨立的沙盒空間,讓業務單位的使用者可以在沙盒空間進行分析、查詢、製作BI報表,甚至是開發ML服務。
預先清理地端資料平臺、爭取各國監理機構核准上雲
除了打造雲端資料平臺,BBVA也同時進行預遷移(pre-migration)準備,先在地端資料平臺進行資料清理作業,減少實際上雲過程中需要遷移的資料量。
BBVA全球資料架構主管Federico Esteban強調,預遷移是整個上雲成功關鍵之一。他解釋,預遷移重點要對地端的資料平臺進行大規模清理,移除不必要的資料、簡化資料處理流程的設計,「透過預遷移,我們成功將遷移範圍減少超過40%。」
另外,爭取各國監理機構核准上雲,也是第一階段的重要工作。Federico Esteban說,他們付出了極大努力來獲得各國監理機構的核准,因為對某些國家而言,尚未有金融機構執行過資料上雲的計畫。「千萬不要低估說服監理機構同意資料平臺上雲,所需要的工作量。」他強調。
.png)
在開始進行平行階段前,BBVA將所有原本在地端執行的資料處理流程遷移到雲端上,他們在雲端環境中複製了一套地端環境接收資料的機制,讓雲地同時接收不同區域的營運系統傳送的資料。並且,他們在雲端建立一個複製資料區(copy data on premise),運用額外自建的資料傳輸工具來將地端的資料複製到該區。
BBVA資料平臺使用者會先在雲端的複製資料區進行測試。等到正式的雲端平臺資料品質足夠穩定後,才會讓使用者切換到正式的雲端資料平臺進行驗證。當測試都通過後,BBVA才刪除複製資料,正式關閉地端平臺,完成整個資料平臺遷移計畫。圖片來源/BBVA
透過地端、雲端雙平臺平行運作進行資料平臺遷移
到了2024年,BBVA完成雲端資料平臺的建置,邁入上雲計畫第二階段,開始將地端資料平臺遷移至雲端。
Federico Esteban強調,整個專案最困難的挑戰,不是打造新平臺,而是「將所有東西從地端遷移上雲,並順利關閉舊平臺。」
BBVA面對的挑戰是,發展十多年的地端資料平臺,高達4PB資料量、3萬多張資料表格,全數都要遷移上雲。甚至,BBVA更大的目標是,要盡量降低停機時間來完成資料遷移。但是,BBVA的資料平臺平均每月執行超過75萬筆資料處理流程,要在流程同步運作的情況下,全數遷移上雲,讓這項任務更具困難。
他們的地端資料平臺分別部署在歐洲地區與美洲地區,歐洲地區需要遷移的資料量達1.7PB,包括14,500張資料表,平臺每月執行約40萬筆資料處理程序。美洲地區的資料平臺規模則達到2.3PB,資料表數量約15,500張,平臺每月資料處理作業逼近35萬筆。
BBVA先從歐洲地區的資料平臺開始著手遷移。在遷移階段中,最重要且最具挑戰的技術工作,是雙平臺平行作業階段,地端和雲端兩套平臺同時執行所有流程,直到兩邊產出相同的結果為止。
在開始進行平行階段前,BBVA先將所有原本在地端執行的資料處理流程,遷移到雲端。具體來說,是在雲端環境中複製一套地端環境接收資料的機制,讓雲地兩端同時接收營運系統傳送的資料。
Federico Esteban解釋,地端資料平臺每天都要接收來自不同國家數千個營運系統的資料,集中至主檔資料(Master Data)層,平均一天超過一萬五千筆傳輸任務。BBVA在雲端環境同樣建立一個主檔資料層,讓這些傳輸作業可以同時傳送到地端和雲端環境。
接著,再將4PB的資料量複製到雲端環境中,BBVA的做法是將資料複製到一個複製資料區(copy data on premise)的雲端區域。接著,BBVA才正式進入平行階段。
在平行階段中,BBVA目標要讓資料複製任務越快完成越好。因為資料複製的過程中,必須停止地端系統正在運作的流程,來確保資料正確性,所以,才需要盡可能加快資料複製的速度。
Federico Esteban表示,一開始,同時在雲端和地端環境運作五萬筆資料處理流程,持續一周後,開始出現許多問題,地端和雲端的資料不一致,資料品質變差,表格資料也出現錯誤。
所以,BBVA設定了檢核機制。每個周末,重新比對雲端和地端的資料是否一致、審核資料品質是否達到一定水準。他們設定至少95%的資料表格完全正確,且所有關鍵流程都必須正常執行。如果發現錯誤,他們就會再一次重新複製、同步資料。「每週重複這個步驟,持續了六個月,直到雲端與地端的資料結果完全一致。」Federico Esteban說。
盤點了市面上的工具後,BBVA認為現有工具傳輸速度還不夠快,因此,他們採用Amazon EMR和DistCP自建了一套高速資料傳輸工具,可以在30小時內完整複製超過500TB資料量,每周進行約100TB資料量的增量複製,則僅需要6小時就能完成。
除了工程團隊需要定期驗證雲端與地端的資料一致性外,BBVA的資料平臺使用者也必須參與測試。
起初,平臺使用者會先在雲端的複製資料區進行測試。等到正式的雲端平臺資料品質足夠穩定後,才會讓使用者切換到雲端最終版本的Master Data趨勢進行驗證。當測試都通過後,BBVA才刪除複製資料,正式關閉地端平臺,完成整個資料平臺遷移計畫。
回想整趟遷移過程,Federico Esteban表示,整套流程看似簡單,「其實每個環節都像是獨立專案,要花拉的力氣來設計和執行。」
BBVA在2024年底宣布完成歐洲地區的資料上雲,並關閉了該區的地端資料平臺。接著,今年中,BBVA的全球資料工程主管也在社群軟體上宣布,他們已經完成美洲地區的地端資料平臺上雲。
熱門新聞
2025-12-02
2025-12-01
2025-11-30
2025-12-01
2025-12-01
2025-12-04
