圖片來源: 

Walmart

跨雲用量龐大的沃爾瑪,如何管理雲端維運成本?他們發展出了一套將FinOps整合到組織和文化的關鍵心法,甚至設立了專門的跨部門FinOps支援團隊,來協助各部門實踐FinOps。

「沃爾瑪的一切都在雲上執行,投資越高,我們越需要提醒自己,得控制成本。」沃爾瑪全通路成本維運團隊資深工程總監Tim O'Brien指出,因為「要比競爭對手更懂得控制成本。」這是沃爾瑪創辦人十大準則的第九條。每一個沃爾瑪的員工都被要求要專注於省錢,才能對顧客有幫助。

所以,Tim O'Brien強調:「我們一直專注於雲端效率的提升。」也才會在上雲第一天,就開始考慮如何節省。但是「效率不只是成本問題,還涉及了穩定性和準備。」

提高工程師FinOps意識是第一步,先聚焦每天的雲端支出

沃爾瑪成功推動FinOps的關鍵是讓工程師意識到FinOps,如何做到?有三個作法,先聚焦在每一天的花費,其次再讓每日成本的變化產生關聯,最後是將成本的影響連結到顧客。

沃爾瑪打造了一項專案成本工具,可以畫出每個工程團隊每天花了多少錢,以及用在哪裡。這個工具可以從專案、團隊、部門、子公司等不同層級的分類,來檢視每個層級的每天雲端成本明細。Tim O'Brien解釋,讓團隊每天專注這些資訊,可以訓練他們真正掌握自己花錢的方式,「提高每一天的注意力,是開始控制雲端支出的第一步。」

沃爾瑪會不斷問工程師,為什麼你的花費增加了,是因為資料庫還是Log紀錄暴增?雲端資源的使用有沒有過量還是適量?沃爾瑪想要訓練工程師,有能力自己回答這些問題。

訓練團隊建立FinOps紀律

「FinOps不是為了解決成本問題,而是建立團隊紀律,能夠留意當下。」Tim O'Brien補充:「這麼做不只可以管理支出,還帶來可靠性這項好處。」他解釋,訓練團隊經常關注每日成本指標,可以訓練人們推出軟體時,更常思考架構,這樣的成本紀律可以帶來更高的可靠性。一但發生事故,他們常常是第一個回應的人,也知道如何處理。

將每日雲端支出年度化,來凸顯成本變化的影響

當團隊習慣留意每天的成本後,沃爾瑪的下一步是將讓這些成本變化更有關聯性,作法是聚焦在每日成本變化率的增減趨勢,並且將這些「雲端支出年度化」。這是為了讓這些雲端費用的變化,與工程師自己產生關聯,讓團隊更珍惜投入這麼多成本所帶來的價值。

舉例來說,若有工程師為了推出一項新功能,需要啟動新的VM,一天要多付500美元上雲費用,沃爾瑪會將這一日的費用變化乘以365天,轉換成對未來一年的影響,就可以讓工程師認知到,新功能一年得多花18.2萬美元,超過臺幣5百萬元,不是一筆小數目。

更進一步,沃爾瑪還從顧客角度來歸因這一筆雲端支出的影響,要求工程師思考「要賣掉多少商品,營收才得以打平這項新增功能的成本?這麼做值不值得?投入的雲端成本與顧客有關係嗎?新增的功能對顧客有幫助嗎?」

Tim O'Brien補充:「將所有的節省或浪費,都連結到顧客和相關的體驗,才有意義。」

訓練工程師注意每日支出只是基本原則,Tim O'Brien還要求整個團隊得注意到各種層面的每日支出,依據職位不同,各自負責關注不同重點。資深經理以上的資深主管,甚至是技術長,都得意識到每日支出的變化率,如何能夠用來鼓勵當責(Accountability),讓團隊對投入相關花費的結果負起責任。

而工程師與團隊的中低階經理,則要從每日支出更意識到架構對成本的影響,例如經常評估遷移到新架構的成本是多少?或是檢查所準備的儲存空間有沒有使用?上傳了數PB的資料該用冷儲存、標準儲存還是歸檔儲存?有沒有造成浪費或是提供了過高規格的儲存空間?「儲存是最容易忘記拿來用的技術。」Tim O'Brien說。

Tim O'Brien指出:「關注每天花費,就像打籃球,每天練習就會進步,每天練習還可以讓你保持敏銳,FinOps也是一樣。」不只如此,這麼做還會帶來額外的好處,他補充,追蹤每日成本,也是一種追蹤和觀察技術架構的方法,一但觀察到意外的支出,對事件的應變能力和回應都會更及時。

為了減少雲端成本,戰略上,沃爾瑪訂定跨年的省錢戰略,也會落實到每年和每季預算上,但更重要的是訂定每日支出的目標。在戰術上,則聚焦追蹤每天的雲端消費情況、監控利用率。

沃爾瑪高層每周必看的雲端費用表

不只設定每日目標,還會訂出隨著時間進展的費用下降路徑。每周Tim O'Brien率領的全通路成本維運團隊,都會寄一張雲端費用表給沃爾瑪每位高層。在這張表上,會列出每個部門每周的平均每日支出,例如某部門5/1~5/7平均每天上雲費用是34.2萬美元,每日目標是三個月後,也就是要在10月1日時,降低到每日上雲費用是25萬美元,也就是一天要減少9.2萬美元。

9.2萬美元這個節省額度,不是一天或一個月達成,而是分3個月,每個月降低四分一,因此,在這張表也會同時列出,每個月要達到的每日支出金額,例如7/1每日支出要減為31.9萬美元(減少25%),而8/1則要降低到每天花29.6萬美元(減少50%),9/1是27.3萬美元(減少75%),以及10/1的25萬美元,並且列出每個月要減少的金額為2.3萬美元、4.6萬美元、6.9萬美元,讓高層可以知道,未來每個月預計節省費用的下降趨勢該是如何。只要這個團隊某個月的每日支出超出了原定目標,馬上就會知道,偏移了多少,應該在下個月修正多少,最終才能達標。

「一個團隊的預算是按年來規畫,但是焦點必須是每天關注。」這就是沃爾瑪落實FinOps的秘訣,Tim O'Brien說:「雖然不是所有的雲端支出都下降,有些領域還是持續增加,但是我們透過這些方式,努力減少上雲的費用。」

發展協作式FinOps,避免將FinOps變成省錢比賽

Tim O'Brien也提醒,不能把FinOps當成省錢的比賽,他認為:「FinOps需要協作,得避免造成競爭心態,不能變成一種爭『省錢功勞』的情況。」為了發展成協作式的FinOps實踐,沃爾瑪會特別先防範3種FinOps壞模式,避免團隊出現3種不好的行為。

避免團隊出現三種FinOps壞模式

第一種不良行為是「標榜自己才是專家」,FinOps團隊要避免認為自己才是雲端維運管理專家,專門指揮其他團隊該怎麼做,或是列出一張長長的省錢改善清單,要求其他團隊照單執行。一但其他團隊不聽指揮,FinOps團隊又沒辦法負責,就無法落實FinOps。「要讓團隊自己建立標準和省錢目標,自己當責。」Tim O'Brien表示。

第二種要避免的行為是「指責他人」,FinOps團隊不能在老闆面前,責怪哪個團隊或哪一個人沒做好,這會破壞彼此的關係,FinOps協作就會失敗。「鼓勵才有助於熱情和理解,尤其FinOps要擴大規模,特別不容易,需要採取鼓勵的態度,而非責難。」Tim O'Brien會盡量將成果歸功到更多人,讓其他人因注重FinOps而獲得晉升。

最後一種不良行為是,FinOps團隊得避免「自己把持FinOps資料」。像Tim O'Brien的團隊整合四十多種不同的資料來源,才彙整出各種雲端用量、成本和維運的數據,但是,FinOps團隊不能自己想要獨占這些成本和利用率的數據,而是得意識到,用到雲端的每一個團隊,都需要掌握和分析這些資料。「資料沒有共享,就沒有信任,而且不只是提供資料,還要分享分析。可以建立一個跨部門的超級使用者社群,一起討論。」他說。

每一周,沃爾瑪每一位高層會收到這樣一張雲端費用表(圖中數據為模擬的假資料),列出每個部門每周的平均每日支出,以及未來3個月後要減少的目標金額,還會列出每個月預計節省費用的下降趨勢。只要團隊某個月的每日支出超過預定目標,馬上就會知道偏移多少,下個月應該修正多少,最終才能達標。(圖片來源/Walmart)

 相關報導 

熱門新聞

Advertisement