圖片來源: 

Meta

Meta昨(24)日宣布正在打造全球最快AI超級電腦,志在用以訓練數兆參數的大型模型,加速實現元宇宙(metaverse)願景。

名為AI Research SuperCluster(RSC)的超級電腦預計2022年中打造完成。Meta執行長Mark Zuckerberg表示目前RSC是全球運行中最快AI超級電腦之一,但等建造完成時將成為全球最快。

目前Meta研究人員已經用RSC來訓練自然語言處理(NLP)及電腦視覺(computer vision)研究使用的大型模型。他們希望RSC未來可以處理數兆參數的模型。

Meta表示由於有些實驗要進行好幾個星期,且涉及數千個GPU,因此RSC架構必須極穩定,此外又必須好操作以支援研究人員進行各種AI模型的訓練。

RSC由數個運算節點組成,並以高速網路串連而成。Meta表示RSC目前已包含760個Nvidia DGX A100系統節點,總和達6,080顆GPU。和Meta現有訓練系統相較,早期標竿測試顯示RSC的電腦視覺作業運算速度提升20倍,執行Nvidia Collective Communication Library(NCCL)的速度快9倍有餘,而訓練大型NLP模型的效能則提升3倍。這表示一個擁有數百億參數的模型訓練完成時間,可以從過去的9個星期縮短為3周。

圖片來源/Meta

其他規格方面,RSC每座DGX節點透過Nvidia Quantum 1600 Gb/s InfiniBand 二層Clos網路架構串連,以減少網路超載(oversubscription)問題。RSC儲存系統將採用175 PB的Pure Storage FlashArray、46 PB的Penguin Altus快取儲存及10 PB Pure Storage FlashBlade。

等年中打造完成時,RSC將搭載1.6萬顆GPU,而混合精度運算(mixed precision compute)效能達到將近5 Exaflops,使其成為全球最快超級電腦AI。RSC的快取及儲存系統設計,未來計畫可提供16TB/s頻寬及1 Exabyte儲存容量。

目前RSC已經和去年5月美國國家能源研究科學計算中心(National Energy Research Scientific Computing Center,NERSC)揭示的勞倫斯伯克利國家實驗室的AI超級電腦Perlmutter相當,後者採用了6,159顆Nvidia A100 GPU。

HPCwire估計,據現行Top500超級電腦排名,Meta RSC第一階段約為第4名,完成後浮點運算速度約為227 petaflop/s,可望躍居全球第2快。


熱門新聞

Advertisement