12/22~12/30 精選容器新聞

#SRE #CRE #K8s大規模導入
日本雅虎KaaS平臺怎麼管?靠2種角色管530個K8s叢集

日本Yahoo內部KaaS團隊一位K8s工程師藤江貴司最近接露了自家K8s建置現況。日本雅虎從2015年11月就開始研究新一代架構,2017年4月開始導入KaaS(Kubernetes as a Service),第一個導入K8s的服務是Zubatok,2018年10月開始全面導入到Yahoo內部應用,目前K8s叢集數達到530多個,已有140項產品或服務部署在K8s環境,所用容器數量高達7萬個。

儘管花了2年多擴大導入,日本雅虎到2019年11月底時,仍然只有3成應用容器化,2020年的目標是,將內部應用中規模最大的廣告業務相關平臺全部都搬上KaaS平臺,來擴大導入規模。藤江貴司指出,管理K8s的成本,其實非常高,所以才採用KaaS服務,透過自動化K8s管理,來支援大規模的K8s環境部署。主要透過Kubernetes Controller來建立自動化管理的機制。

另一方面,日本雅虎從2019年4月開始,大力培訓自家工程師的K8s成立,新近工程師或中階工程師全部要接受培訓,學習基本的Docker知識和部署方式,來降低使用K8s的門檻。日本雅虎目前採用的K8s版本是2019年9月釋出的1.16版本,主要原因是看上客製化資源配置功能,可以讓開發者或產品團隊自己定義需要的運算資源配置。

日本雅虎還設立了一個專門維運KaaS的團隊,目前約20人,來負責管理530個K8s叢集,支援140款產品的運作。KaaS團隊還進一步分成兩組角色,一事CRE(顧客可靠性工程師)和SRE(服務可靠性工程師)。CRE的任務是負責協助內部用戶(內部使用KaaS的產品部門)提高生產力,處理內部用戶的問題和跨平臺整合工作,另外還要負責內部教育訓練和內部KaaS社群的管理。

而SRE則是負責維護KaaS,尤其是KaaS採用了大量開源軟體,SRE團隊要負責維運、升級、建立自動化管理平臺。為何要分成兩種角色?藤江貴司解釋,原本只有KaaS維運工程師角色,但一方面要維護系統,又要掌握用戶使用情況,兩者的優先順序很難安排或兼顧,導致負責CRE工作的工程師,很難專注在維運工作,所以,後來,日本雅虎決定,將這兩類職務分成兩個團隊,讓SRE團隊只專注於KaaS平臺維運任務就好。

#K8s維運 #當機偵測
VMware開源釋出K8s叢集當機監控工具

虛擬化龍頭VMware最近全力布局K8s市場,除了預告下一版vSphere將改用K8s重新打造之外,也陸續釋出自己開發的K8s工具,來卡位雲端原生市場。最近VMware就開源釋出了一款K8s叢集當機監控工具Crash-Diagnostics,這是屬於Vmware Tanzu專案中的其中一項小專案。Crash-Diagnostics可以用於K8s叢集當機事件的分析、事故調查或除錯,而且可以提供自動化偵測機制,一旦叢集出現停滯或當機情況,就自動蒐集事故機器狀態或同一個叢集中其他節點的資訊,也會將這些資料保留。未來版本的目標是可以進一步提供自動化的當機分析能力。

#機器學習 #跨雲部署
搶攻跨雲需求,Domino Data Lab機器學習平臺開始支援K8s部署

主推企業級資料平臺的Domino Data Lab,最近開始將自家資料平臺產品開始支援K8s原生部署,來搶攻跨雲資料科學應用的需求。新版平臺可以支援跨雲資料科學政策的管理,例如在私有雲或公雲上套用同一套K8s自動擴充政策,來執行機器學習訓練任務。另外,這個工具的目標是希望可以做到也提供了一個效能評估工具,可以來衡量機器學習模型的

#超大規模叢集管理 #K8s
管理1萬套K8s叢集有四大難題,阿里巴巴如何克服?

阿里巴巴從2015年就開始推出了雲端K8s服務ACK,目前是阿里雲成長最快的產品。阿里巴巴內部應用也用了ACK來執行各種內部應用。阿里巴巴曾發表過1萬個K8s節點的最佳管理實踐,但在,現在他們遇到了更大的挑戰,1萬叢集的管理。超大規模K8s叢集管理主要有四大挑戰,首先是異質叢集管理的統一(標準版、無伺服器版、邊緣運算版和Windows版K8s叢集),其次是叢集大小差異很大,從1千個規模到1萬個規模都有,第三個挑戰是ACK會持續升級或擴充新元件,最後一項資安和法規如何落實到所有叢集上。

ACK按全球20個地區的服務來建立各自的叢集群(Meta Cluster),來降低複雜度,並用K8s來管理K8s叢集的擴建。阿里巴巴將這個作法稱為KoK架構,並設計了新的雲端原生網路來提高同一個叢集群內的節點、Pod和服務的溝通效率。另外,針對不同規模大小的叢集,還設計了不同類型的配置檔等級,分成小型、中型和大型三種。每一種runtime搭配的部署配置檔,都會再細分出這三種規模的配置設計。

在K8s元件管理上,阿里巴巴則開發出一個集中式的外掛式元件管理平臺,可以用來註冊和管理所有的K8s元件,並且搭配了健康監控服務,在元件升級前後都會檢查,來掌握用到這些元件的叢集是否有影響。另外,還用邦聯式Prometheus建立了一套全球規模的分級式監控架構,來監控分散在20個地區的K8s叢集群。

責任編輯/王宏仁

更多Container相關動態

HashiCorp推出K8s整合工具vault-k8s,來強化自家資安產品與K8s的串接


Advertisement

更多 iThome相關內容