Google雲端更新去年所推出的HPC工具包,不只能夠支援HPC使用案例,現在也可更好地支援人工智慧和機器學習的工作負載,供用戶簡單部署人工智慧運算環境。HPC工具包是一組開源工具和資源,簡化重複建立HPC運算環境的任務,用戶可以透過現有HPC藍圖,或是在YAML檔案新建藍圖,在數分鐘內迅速啟動並執行HPC叢集。

Google發現客戶會在傳統的HPC叢集上,使用像是Nvidia NeMo人工智慧和機器學習框架,大規模客製化和部署模型。因此Google現在改進HPC工具包,應對HPC系統與人工智慧/機器學習工作負載融合帶來的部署挑戰,讓用戶只要使用HPC工具包,就可以透過滑鼠點擊迅速設定HPC環境,開始在Nvidia GPU上訓練大型語言模型。

HPC工具包擁有幾個關鍵元件,包括HPC藍圖(Blueprint)、HPC模組、ghpc引擎和HPC部署資料夾。HPC藍圖是一種用YAML檔案格式定義的配置檔案,其詳細指定了所要使用的HPC模組,以及客製化這些模組的方法。而HPC模組則由Terraform和Packer配置檔案組成,是建置部署資料夾的基本組成。ghpc引擎則是Google的開源工具,會使用HPC藍圖以及不同的HPC模組,產生HPC部署資料夾,該資料夾為自包含,具有部署完整HPC叢集需要的所有元素。

在本次更新中,Google強化HPC工具包對人工智慧工作負載的支援,官方指出,他們與Nvidia一起開發了人工智慧和機器學習藍圖,藍圖提供預配置分割區,支援包括G2、A2和A3三種不同的Nvidia GPU虛擬機器類型。

此外,該系統以Google的Ubuntu深度學習虛擬機器映像檔為基礎,並且包含了NCCL(Nvidia Collective Communications Library)Fast Socket最佳化,可以提升分散式運算環境中的網路通訊效率。而且Google透過在藍圖中綑綁enroot容器工具,和適用於Slurm工作負載調度程式的Pyxis擴充套件,讓用戶能夠無縫整合非特權容器,並在Slurm任務中指定使用該容器。

透過運用Google雲端的HPC工具包,開發者可以快速建立和部署遵循最佳實踐的雲端運算環境,並整合Cloud Monitoring,進行監控與獲得效能可見性。而且HPC工具包也與Google的合作夥伴解決方案與技術整合,因此能夠結合DAOS、DDN EXAscaler等儲存系統,以及Slurm工作負載調度程式一起使用,高效處理大量資料和複雜計算任務。

熱門新聞

Advertisement