Google為GCP上的HPC工作負載管理器Slurm加上新功能,包括先占式虛擬機器、自定義機器類型、映像檔執行個體擴展、可附加GPU,以及可自定義的NFS掛載,另外,這個版本還改進了部署的可擴展性和彈性。

Slurm是開源HPC工作負載管理器,全球TOP500超級電腦中有約60%採用,Slurm能夠為用戶分配專用以及非專用的資源,並提供一個能啟動、執行以及監控節點任務運作的框架,也能為任務佇列合理地分配資源。Google在Compute Engine上提供的Slurm叢集,能根據工作需求以及佇列深度自動擴展叢集,並且可以使用Slurm將本地叢集的工作,聯合雲端Compute Engine執行的Slurm叢集一同工作。

GCP使用者現在可以使用先占式虛擬機器以及Slurm來擴展Compute Engine叢集,對自定義的機器類型,也能以最佳化的CPU以及記憶體資源,在執行個體上運作使用者的工作負載,Google表示,這兩項功能可以幫助使用者,降低HPC工作負載的成本,因為先占式虛擬機器比一般執行個體便宜80%,和預定義的機器類型相比,自定義機器類型又可以節省50%以上的成本。

使用者還能根據Google提供的磁碟映像檔創建Slurm執行個體,比起從網際網路安裝套件並應用腳本配置,可以大幅縮短配置每個節點的時間,同時也提高部署彈性。映像檔是透過配置映像檔創建節點自動生成的,並作為其他自動擴展執行節點的基礎,Google表示,這樣的方法可以在7分鐘內產生5,000個節點。

由於Compute Engine支援各種GPU,使用者可以根據區域可用性,附加到執行個體中。這次的更新,Slurm會根據GPU的型號和相容性,自動安裝適當的驅動程式和軟體,使得Slurm能在Compute Engine上擴展GPU工作負載。另外,使用者也可以為NFS主機選擇儲存服務,並指定既存VPC或是共享VPC來託管叢集。


Advertisement

更多 iThome相關內容