Nvidia周一(12/15)宣布,已收購高效能運算(HPC)開源排程系統Slurm的主要開發與維護者SchedMD,未來將持續維持Slurm的開源及中立角色,同時強化Nvidia在AI與HPC叢集層級的軟體控制能力。雙方並未對外披露交易金額。

Slurm最早於2002年由美國勞倫斯利佛摩國家實驗室(Lawrence Livermore National Laboratory,LLNL)開發,是一套負責叢集資源配置、作業排程與佇列管理的開源系統。在TOP500超級電腦中,有65%的系統採用Slurm,已被視為HPC管理軟體的業界標準,隨著大型語言模型與生成式AI的訓練規模持續擴大,Slurm也逐漸成為AI訓練與推論不可或缺的基礎設施。

至於成立於2010年的SchedMD並非是Slurm的原始發明者,而是隨著Slurm廣泛被學術研究及產業的採用,承接其長期維護、功能開發與商業支援的公司,主導了Slurm的版本演進、主要功能與發布節奏。

Nvidia表示,該公司與SchedMD的合作已超過10年,未來將持續投資Slurm的開發,以維持Slurm於HPC及AI領域開源排程器的領先地位,另也將加速SchedMD及Slurm接觸新一代的Nvidia系統,最佳化整體運算基礎架構上的工作負載,並會支援多元硬體與軟體,以讓客戶能以Slurm運行異質叢集。

Nvidia也將持續為SchedMD現有的數百家客戶,提供Slurm的開源軟體支援、訓練與開發服務。

市場分析認為,相較於Nvidia旗下的CUDA、NCCL等加速運算軟體負責提升GPU效能,Slurm位於更上層的位置,負責工作負載如何排隊、如何分配CPU與GPU資源,以及如何於異質叢集中進行調度,隨著AI叢集規模快速擴張,排程與資源治理已直接影響訓練效率與整體成本。透過這起收購,Nvidia的角色也從單純的AI硬體供應商,進一步擴展至資料中心與AI叢集的核心控制層。

熱門新聞

Advertisement