Google對GCP用戶釋出透明服務等級指標(Transparent Service Level Indicators ,SLIs)功能,用戶現在可以從Stackdriver中,查詢到應用程式發出交易次數與延遲分部等細緻的細節資料,Google藉由提供GCP服務詳細的訊息,幫助用戶在服務發生問題時,能快速的找出問題所在並加以解決。

IT管理人員可以容易的測量自家服務與應用程式的效能以及可用性,但是當這些應用程式運作在第三方雲端供應商時,發生服務中斷或是效能下降的狀況,除錯工作通常會變得複雜。Google提到,他們在雲端上已經提供了超過130種的雲端服務API,用戶可以使用者這些標準化指標衡量自己的服務。但對於幫助用戶完全了解應用程式在雲端平臺運作的情況還遠遠不夠,因此Google在Cloud Next上釋出透明SLIs。

透明SLIs提供的不只是服務上傳與下載這類概括性的指標,用戶現在可以透過交叉比對Stackdriver精細指標來為應用程式與服務除錯,或是微調效能,這些指標包括用戶發送的交易數量、回應代碼的比率或是延遲分布,用戶透過使用在Stackdriver的指標瀏覽器(Metrics Explorer),對每個服務詳細指標進行切分,這些切分條件包括服務名稱、方法、API版本、憑證ID、位置、協定(HTTP/gRPC)、HTTP回應代碼、HTTP回應代碼類別與gRPC狀態代碼。以請求方法來說,用戶可以查看請求錯誤率、請求數量或是第50、第99百分位數。這個功能提供用戶透過縮小範圍,以快速的找出在GCP服務中發生問題的服務。

Google舉了一些除錯用例,當用戶發現服務性能下降,與關鍵服務的第50百分位數所增加的延遲有關時,便能直接聯繫Google進行除錯。或是當用戶看到GCP的指標呈現正常,而應用程式客戶端指標報告卻顯示延遲異常,則有很大部分的原因發生在網路供應商。Google認為,透明SLIs增加服務品質的能見度,會改變用戶思考服務的方法,對於服務品質會敏感的多。

指標的數據分布也能作為用戶開發服務的參考依據,幫助用戶理解常態分布,在設計系統時可以使其落在正常的區間,當分布資料未按照預期表現,開發者能更快的做出反應,像是第99個百分位應該與中位數的數字差距很大,或是百分位數的資料不應該跟著時間變動,透過圖表能直覺的發現實際與理想的差異,Google建議,即便服務正常,用戶仍應每周檢查這些數據,以觀察服務可能存在的問題。

用戶要啟用透明SLIs,可以至Stackdriver中的指標瀏覽器,將Consumed API設為資源輸入,接著Stackdriver便會對用戶的專案進行設置,根據產品與服務創建可用的度量列表。指標瀏覽器提供過濾器與資料聚合的功能,因此用戶可以合併兩項資料到同一個圖表中,像是把請求計數器與HTTP回應代碼結合使用,以呈現時間內錯誤率儀表板。Google也提到,用戶可以將自家應用程式指標與GCP服務指標混用,例如將使用Cloud SQL的應用程式指標與Cloud SQL錯誤率放在同一個圖表,這樣用戶能直接明瞭Cloud SQL錯誤率與應用程式的關係。


Advertisement

更多 iThome相關內容