Google更新Kubernetes服務GKE全託管操作模式Autopilot,現在加入支援GPU,使用戶能夠將其用於機器學習訓練和推理等工作負載上,另外,Google還在GKE Autopilot提供更大型的Pod,供用戶執行大規模運算。

不少工作負載,像是機器學習模型的訓練和推理等任務,都需要使用GPU,而Google透過在Autopilot添加Nvidia T4和A100 GPU,以進一步支援這類工作負載,使用戶在Autopilot全託管的操作環境中,也可以執行機器學習訓練、推理、影片編碼和各種需要GPU的工作負載。

在Autopilot上執行GPU工作負載的優點是,用戶僅需要指定GPU需求,剩下的便由Autopilot處理,無需單獨安裝驅動程式,也不需要擔心在GPU節點上卻執行非GPU Pod,Autopilot會自動處理GPU和Pod配置,且因為使用Autopilot,用戶僅需要針對Pod執行時間付費,因此當沒有工作負載運作GPU Pod終止,相關費用也會停止計算。

用戶可以請求多個T4 和 A100 GPU預定義數量,並使用CPU和記憶體預設值,或在特定範圍內自訂。Autopilot會避免在GPU節點上運作非GPU Pod,同時自動配置符合要求的GPU節點,包括需要的Nvidia驅動程式。

另外,Autopilot現在還推出平衡運算類別,提供更大型的Pod,支援高達222個vCPU和851 GiB的Pod資源。Autopilot原本就有提供28個vCPU的大型Pod,以及多達54個vCPU的橫向擴展運算類別Pod,但是當用戶還需要更多運算資源時,便可以使用最新推出的平衡運算類別Pod。

熱門新聞

Advertisement