在炙手可熱的生成式AI技術領域,近來最受到眾人所矚目的消息,便是Meta發表了當前規模最大的Llama 3.1大語言模型模型,該公司宣稱在多項基準測試中,超越原先的領先者OpenAI的GPT-4o,與Anthropic的 Claude 3.5 Sonnet,成為當前最強大語言模型,也標誌著開源大語言模型的能力已追上閉源大語言模型。
除了亮眼的AI表現,Meta也透過論文《The Llama 3 Herd of Models》,以及部落格文章《Building Meta’s GenAI Infrastructure》等文件,公布訓練Llama 3的基礎設施硬體架構細節,方便外界了解,使更多人得以一窺這種頂級AI模型所需耗費的硬體資源規模與架構形式,進而還能作為這個領域的參考範本。
Meta AI基礎設施的演進
雖然Meta投入AI基礎設施建置已久,但2022年才陸續公開相關訊息。
Meta在AI研究方面的起點,可追溯到Facebook於2013年成立的AI研究實驗室(AI Research lab),Meta第1座專為AI研究建置的高效能運算系統則是在2017年完成,由2.2萬個Nvidia V100 GPU構成,每天可執行3.5萬個訓練作業。
接著Meta於2020年開始打造新一代基礎設施,成果便是2022年中完工的AI研究超級叢集(AI Research SuperCluster,RSC),含有1.6萬個Nvidia A100 GPU,Meta自詡是當時最快的AI研究用超級電腦,而Llama模型前2個世代——Llama 1與Llama 2,都是利用這座RSC叢集來訓練,也用於電腦視覺、自然語言處理、語音識別、圖像生成與程式編撰等AI模型開發。
Meta在2024年又建置更大型AI叢集,是Meta第3代的AI運算叢集,能夠支援更大、更複雜的模型運算,以便為開發生成式AI產品鋪路,Llama 3模型便是採用這座設施來訓練。
目前Meta尚未給予這座新AI叢集正式命名,而是在不同場合以「新AI叢集」、「生產叢集」(production clusters),或是「24k GPU叢集」(24k GPU clusters)稱呼。
其中新AI叢集的說法,是相對於RSC叢集,表明這座叢集是新建置的;生產叢集的稱呼,是強調這座叢集的設定,針對生產層級的可靠性(production-grade reliability)做了最佳化,以便擴大訓練的規模;而24k GPU叢集的稱呼,則是指稱其含有的GPU規模,達到24k個Nvidia H100 GPU(24,576個)。
Meta新AI叢集的特色
相較於上一代的RSC叢集,新的24k GPU叢集無論在運算單元、網路規格與儲存裝置組成方面,都有明顯的差異。
就運算單元來說,上一代RSC叢集,是採用搭載8個Nvidia A100 GPU的Nvidia DGX A100 AI伺服器,新AI叢集改用Meta自身開發、搭載8個Nvidia H100 GPU的Grand Teton AI伺服器。
在規模方面,新AI叢集擁有24,576個H100 GPU,上一代RSC叢集則為16,000個A100 GPU。新AI叢集的GPU數量比先前RSC叢集多出1/3,而就個別GPU的效能而言,H100在不同浮點數精度的運算效能,約比A100高出2到3倍以上,所以整座新AI叢集的GPU運算效能,至少比RSC叢集高出3到4倍。
在網路架構方面,上一代RSC叢集是以2層式的200Gb InfiniBand網路,作為GPU伺服器節點的互連架構。新AI叢集則依模型規模,分別採用400Gb頻寬的RoCE乙太網路或InfiniBand,提供GPU伺服器節點間互連,並採用3層式網路架構,以支援更大規模的叢集環境。
而在儲存裝置方面,基本上,RSC叢集是以市售儲存產品為主,包括:作為儲存層的175 PB容量PureStorage FlashArray儲存陣列,作為快取的46 PB容量Penguin Computing Altus系統,加上提供NFS存取的10 PB PureStorage FlashBlade儲存設備,總容量為231 PB。
到了新AI叢集,Meta則改用自身的Tectonic分散式檔案系統,來打造配套的儲存叢集,總容量維持在同級的240PB,但擴展能力更大,整個儲存叢集由7,500臺伺服器構成。
所以,無論在GPU運算能力、網路傳輸頻寬,還是儲存架構擴展性,新AI叢集都比上代RSC叢集躍升一個檔次。
除了規格全面提升外,新AI叢集的另一特色,是大幅度的「Meta化」與「OCP化」。
上一代RSC叢集的主要元件,多是其他廠商提供的現有產品,如AI伺服器採用Nvidia DGX A100,網路交換器是Nvidia Quantum系列,儲存設備則是購自Pure Storage與Penguin Computing。
而新AI叢集的主要組成元件,則多是Meta自行開發的OCP開放規格硬體,包括做為AI伺服器的Grand Teton GPU伺服器平臺,構成儲存叢集的Yosemite伺服器、Open Rack機架、以及Wedge 400與Minipack交換器等,另搭配部分外部廠商產品。
Meta目前一共打造了兩座這種24k GPU叢集。而Llama 3的3種規模版本——8B(80億個參數)、70B(700億個參數)與405B(4050億個參數),最大型的405B版本使用16k個GPU(16,384個)的叢集,也就是耗用了每座24k GPU叢集約2/3的運算能力。
接下來我們就依運算單元、儲存單元與網路單元的順序,逐一介紹Llama3模型訓練基礎設施的詳情。
Meta Llama 3訓練基礎設施組成框架
Llama 3模型使用的訓練基礎設施,是以24k GPU叢集為核心,搭配儲存叢集,以及前、後端網路而成。
24k GPU叢集是由3,072臺Grand Teton AI伺服器組成,一共有24,576個Nvidia H100 GPU與6,144個CPU。
儲存叢集則分為2大部分,一為提供模型訓練資料輸入、保存檢查點等主要訓練任務的儲存需求,由Tectonic分散式檔案系統構成的儲存叢集,採用總數達7,500臺的Yosemite V3伺服器組成。另一為基於Hammerspace平臺的NFS儲存服務叢集,用於程式開發修改等任務,同樣採用Yosemite V3伺服器來部署。
而儲存叢集透過100/200G規格的前端網路,來與24k GPU叢集連結。24k GPU叢集內部的所有運算節點,則透過400G的RoCE或InfiniBand互連,構成GPU互連專用的後端網路。
超大規模的GPU運算單元
如同前面提到的,訓練Llama 3使用的24K GPU叢集中,作為運算核心的Nvidia H100 GPU,是安裝在Meta的Grand Teton AI伺服器平臺上運行。
Grand Teton是Meta於2022年OCP全球大會所發表的AI運算平臺,同時,也是Meta上一代AI運算平臺Zion與Zion-EX的後繼者,整套系統圍繞著Nvidia H100 GPU打造,並引進一系列新硬體規格,包括PCIe 5.0介面、DDR5記憶體、OCP 3.0規格的200GbE或400Gb網路卡等,不僅提供2倍於上一代平臺的運算與資料網路頻寬、4倍的CPU與GPU頻寬,還能承受2倍的熱量,機箱架構也大幅更動。
上一代的Zion平臺是由3個機箱模組組成——CPU頭節點(CPU Head Node)、交換器同步系統(Switch Synchronization System),以及GPU系統,需透過外部纜線來連接這3個模組,但這也增加布線複雜性與故障機率。
而Grand Teton則改用單一機箱設計,組成的3大基本單元:CPU、交換器與GPU加速器,都各自以托盤模組(Tray)安裝在單一機箱內,完全去除電源與網路之外的所有外部佈線,藉此能改善整體效能、信號完整性與熱效能,還能大幅簡化部署程序,便於資料中心叢集快速導入與擴展,並減少潛在故障點,提供更高的可靠性。
Grand Teton AI伺服器的架構
Grand Teton伺服器在8個OU高度的機箱內,由上而下分別容納2 OU高度的CPU托盤模組、2個OU高度的交換器托盤模組,以及4個OU高度的加速器托盤模組。
其中CPU托盤模組含有2組CPU插槽,各自搭配1張OCP規格的前端網路卡與1組開機磁碟,在處理器組態方面,則有搭載Intel Xeon Sapphire Rapid處理器與2 TB DDR5記憶體,或是搭載AMD EPYC Genoa與2.3TB記憶體等兩種選項;交換器托盤模組則是以4組Broadcom的PCIe 5.0交換器晶片為核心,提供CPU、GPU、網路卡與SSD等裝置互連所需的PCIe 5.0通道,以及安裝網路卡與SSD的空間,最多可安裝8張OCP規格RDMA網路卡,以及16臺E1.S SSD;至於加速器托盤模組,則可安裝8個H100 GPU單元。
請注意!在整臺Grand Teton伺服器中,GPU與RDMA網路卡採1比1的配置,確保為每個GPU提供充足的跨機箱連結傳輸頻寬。
個別托盤模組之間,則是透過內含PCIe 5.0×16通道的ExaMax連接埠互連,CPU模組與加速器模組各自透過位於機箱後方的4條ExaMax纜線,連接到交換器模組上,藉此構成3大模組間的互連。
Meta Llama 3訓練設施的運算核心:Grand Teton AI伺服器
Llama 3訓練用的24k GPU叢集,採用Meta自行開發的Grand Teton AI伺服器,構成叢集的運算核心。Grand Teton是一種符合OCP規格的GPU伺服器,機箱內含有3個核心的托盤模組,由上到下分別是GPU模組、交換器模組與GPU模型,CPU模組含2個CPU、記憶體、開機碟與前端網路卡,交換器模組含16臺E1.S SSD與8張後端網路卡,GPU模組則安裝了8張H100 GPU卡。
AI叢集的規模
24K GPU叢集的Grand Teton AI伺服器,每臺都滿載8個H100 GPU與2個CPU,但Meta並未公布其採用的CPU型式,其中8個GPU透過NVLink彼此互連,而GPU與其他裝置,以及其他裝置之間,則都是透過PCIe 5.0互連。
依這個規格推算,整個24k GPU叢集,至少包含3,072臺Grand Teton AI伺服器,匯聚了24,576個H100 GPU與6,144個CPU,還有分別用於搭配GPU與CPU的1,920TB HBM3記憶體,與12 PB以上的DDR5記憶體,可說是相當龐大的運算資源,但這樣高的配置,必然也會在功耗上付出可觀的代價。
依照Meta提供的規格,每臺Grand Teton伺服器的TDP大約是8.3kW,所以整個24k GPU叢集中,光是AI伺服器部分累加的TDP,大約是25,497kW,也就是接近25.5 MW左右。相較之下,臺灣目前運算能力最高的超級電腦——Nvidia 今年於高雄啟用的Taipei-1(TOP500排名第38),據稱功耗為7.68 MW,只相當於Meta 24k GPU叢集的1/3。
Llama 3訓練基礎設施運算單元圖解
Llama 3訓練用的24k GPU叢集,是以1座包含2臺Grand Teton AI伺服器的機櫃(Rack),作為基本單位。
每一臺Grand Teton AI伺服器的GPU托盤模組,含有8個H100 GPU,彼此間透過NVSwitch互連,並透過交換器托盤模組上的8張400G RDMA網路卡,連接到機櫃上扮演機架訓練交換器(RTSW)的角色的1臺Minipack2交換器,構成跨伺服器機箱的GPU互連。GPU與400G RDMA網卡為1比1配置,以確保傳輸頻寬。
而每1座機櫃上的2臺AI伺服器,便藉由RTSW交換器的連接,構成1組含有16個GPU的機櫃單元,然後再經由RTSW交換器連接到上一層的叢集訓練交換器(CTSW)上,組成跨機櫃的GPU互連網路,也就是後端網路。
Grand Teton AI伺服器的CPU托盤模組另有2張前端網路卡,是作為連接前端網路之用,至於機架上的Wedge 400C交換器,我們推測可能是作為讓AI伺服器介接前端網路的機架交換器(RSW)角色。
高擴展性的儲存單元
在儲存配置上,Meta使用自身開發的Tectonic通用分散式檔案系統,建立搭配Llama 3的預訓練(Pre-training)儲存環境。
Mtea之所以會決定要採用Tectonic,是希望透過這套系統強大的橫向擴展與負載平衡能力,因應Llama模型訓練過程當中,高突發性(Highly bursty)的檢查點(Checkpoint)資料寫入作業需求,這也是支援大語言模型訓練的儲存基礎架構,所面對的主要挑戰。
所謂的檢查點是為了保存每個GPU的模型訓練狀態,作為復原或偵錯之用,每個GPU會為此產生大約1 MB到4 GB的資料量,然而,當數千個GPU同時寫入檢查點,會在短時間內讓底層的儲存架構達到飽和狀態,甚至癱瘓。
Meta的設計目標,是盡可能減少寫入檢查點期間的GPU暫停時間,並增加建立檢查點的頻率,降低復原後損失的工作量,因此,盡可能提高持續寫入效能便成為這套儲存架構的需求重點,藉此減少每次檢查點寫入作業耗用時間。
為此Meta選擇旗下最大型的分散式檔案系統Tectonic,來承擔Llama 3儲存基礎架構的重任。
Tectonic分散式檔案系統
Tectonic是Meta自2014年起開始發展,2021年正式發表的分散式檔案系統,最初計畫名稱為Warm Storage,特點是3層式、可橫向擴展規模的Metadata儲存架構,以及基於Erasure Coding的Chunk Store資料儲存節點單元,擁有強大的擴展與負載平衡能力,可支援EB等級的儲存空間需求。
依照Meta的資料,當時他們內部實際使用的Tectonic儲存叢集,最大規模已達到4千個節點,以及1,590 PB總容量。
而在搭配Llama 3訓練工作的執行時,Meta是以7,500臺配備E1.S SSD的YV3 Sierra Point伺服器,建構Tectonic分散式檔案系統的儲存環境,節點數量超過先前Meta最大型的Tectonic儲存叢集,但容量低了一個層次,總共240PB空間。
採取這種配置的目的,應是透過數量更多的節點匯聚更高的存取效能,Meta宣稱這座儲存叢集擁有2TB/s的持續吞吐率,以及7TB/s的尖峰吞吐率,支援數千個GPU同步載入與儲存檢查點。
在儲存環境的存取方面,AI叢集節點是透過FUSE API,經由100GbE或200GbE網路,來掛載與使用Tectonic分散式檔案系統的空間。
建構儲存叢集的硬體元件
至於Meta部署Tectonic儲存叢集使用的YV3 Sierra Point伺服器,則是Yosemite V3模組化伺服器,以及Sierra Point E1.S儲存刀鋒模組的組合。
其中的Yosemite V3是Meta於2021年OCP大會發表,符合OCP認證規格的多節點模組化伺服器,也是Meta前身Facebook時期,於2015年起陸續推出的Yosemite系列模組化伺服器第3代版本。
Yosemite V3的基本單元是4個OC高度的機箱底座,機箱內部分為3個橫向的滑橇(Sled)空間,每個滑橇含有1到4個插槽,可以垂直堆疊的方式,安插1到4個刀鋒(Blade)模組,每個滑橇內的刀鋒模組共用1個管理板(Management board),以及1張多主機(Multi-Host)OCP 3.0網路卡。藉由這種刀鋒式模組化設計,可提高運算密度,減少網路與供電布線,並改善擴充與維護便利性。
目前Yosemite V3有多種刀鋒模組可供選擇,而Meta建構Llama3的Tectonic儲存叢集時,使用的硬體組態,應該是Yosemite V3的Delta Lake伺服器刀鋒,加上Sierra Point儲存刀鋒的組合。Delta Lake伺服器刀鋒含有1個Intel第3代Xeon Scalable處理器與1.92TB記憶體,Sierra Point儲存刀鋒則能提供6臺E1.S SSD。
額外的輔助儲存架構
除了支援主要訓練儲存作業的Tectonic儲存叢集外,Meta還與Hammerspace合作,開發部署了一套平行式NFS存取儲存系統,作為輔助的儲存架構,藉此為AI叢集提供跨大量伺服器的高效率遠端共享存取操作,例如藉由跨節點即時存取程式碼異動的能力,來執行包含數千個GPU的互動式作業偵錯。這套NFS存取系統,也是利用Yosemite V3伺服器,以及Sierra Point儲存刀鋒來部署。
Meta並未詳細解釋這套平行NFS存取架構。我們推測由於Hammerspace擅長領域是超大規模NAS,以及平行NFS存取技術,或許Meta是利用Hammerspace技術,為AI叢集部署一套使用平行NFS存取的NAS,或NAS閘道器。
Llama 3基礎設施的儲存單元硬體
Meta使用自行開發的Yosemite V3模組化伺服器,來運行Llama 3基礎設施使用的Tectonic儲存叢集,與Hammerspace NFS儲存環境。
Yosemite V3是OCP規格的模組化伺服器,有多種刀鋒模組可供搭配,最基本的模組,包含1個Intel第3代Xeon Scalable處理器、1.92TB記憶體與1臺M.2 SSD的Delta Lake伺服器刀鋒,另外再搭配各式各樣用於擴展儲存與介面卡的刀鋒模組,包括提供4臺E1.S SSD的Vernal Falls 儲存刀鋒,提供6臺E1.S SSD的Sierra Point儲存刀鋒,用於提供CEM附加卡插槽的Discovery Point刀鋒,提供6個Dual M.2加速器模組與2臺E1.S SDD的Glacier Point刀鋒等。
建構多層式網路連結2.4萬個GPU
關於Meta Llama 3訓練環境使用的網路架構,目前有2個主要參考來源,第一篇是Meta論文《The Llama 3 Herd of Models》,提供了概略網路框架,另一篇也是Meta論文《RDMA over Ethernet for Distributed AI Training at Meta Scale》提供更詳細資料,Meta部落格文章《RoCE networks for distributed AI training at scale》,則是後者精簡版本。
Meta將Llama 3訓練環境的網路,區隔為前端網路(Frontend,FE),以及後端網路(Backend,BE)等兩大部分。
● 前端網路
前端網路用於為AI叢集提供訓練工作負載的資料輸入,保存檢查點以及日誌等用途,採用100Gb與200Gb來與AI叢集連結,Tectonic儲存叢集便是透過前端網路,來與AI叢集連結,將資料匯入AI叢集,並接受從AI叢集的檢查點寫入。
前端網路是典型的階層式架構,最前端是直接與AI叢集連結的機架交換器(Rack Switch,RSW),下一層是網路交換器(Fabric Switch,FSW),最底層是儲存節點。
前端網路的關鍵,在於機架交換器必須提供足夠的入口頻寬,以免妨礙工作負載的傳輸。
● 後端網路
後端網路是專門用於AI叢集內,每一臺AI伺服器之間的互連,為GPU與GPU之間,提供跨伺服器機箱之間的高頻寬、低延遲與無損的傳輸通道,這部分採用400Gb規格。
● AI伺服器的網路連接
AI叢集中的每一臺Grand Teton AI伺服器,都同時連接了前端網路與後端網路,我們推測應是利用CPU托盤模組配置的2張前端網路卡,來連接前端網路;並利用交換器托盤模組配置的8張RDMA網路卡,來連接後端網路。
從Meta公開的資料來看,當訓練工作負載規模較小,只使用少於8個GPU時,直接透過伺服器內的NVLink來提供GPU與GPU之間的連結,而不需要使用後端網路進行跨伺服器的連結。當訓練工作負載較大時,才會啟用後端網路,藉由GPUDirect RDMA技術進行跨伺服器的GPU對GPU資料傳輸。
Llama 3訓練基礎設施的網路架構
GPU叢集的基本單元,是1座含有2臺Grand Teton AI伺服器的機櫃,也就是上圖中間位置的AI機櫃(AI Rack),然後機櫃當中的每一臺AI伺服器,透過100G/200G網路連接前端網路(Frontend),並透過400G網路連接後端網路(Backend)。
前端網路用於連接儲存叢集,用於饋入訓練資料,以及傳輸與保存檢查點。AI伺服器先接到機架交換器(RSW),再接到網路交換器(FSW),最後連接到儲存叢集的節點。
後端網路是GPU專用的互連網路,用於跨伺服器、跨機架的GPU互連。AI伺服器先接到機架訓練交換器(RTSW),然後再接到叢集訓練交換器(CTSW)。圖片來源/Meta
後端網路的架構
Meta在不同規模的Llama 3模型訓練工作中,分別採用不同後端網路架構。
最大型的405B版本Llama 3,採用RoCE乙太網路作為GPU伺服器叢集的網路架構,規模較小的8B與70B版本採用InfiniBand。無論RoCE乙太網路,還是InfiniBand版本的叢集網路,都是採用400Gb的頻寬規格。
Meta表示,儘管這2種叢集網路底層技術存在差異,但他們透過調整,為大型訓練工作負載提供相同效能表現。
在具體組成的網路設備元件方面,Llama 3 405B版本的RoCE乙太網路,是由Arista的7800R3系列骨幹交換器、Meta自身的Wedge 400C交換器與Minipack2模組交換器所組成。而8B與70B版本的InfiniBand網路,則以Nvidia的Quantum2 InfiniBand交換器構成。
Meta為405B版本Llama 3使用的RoCE乙太網路架構,提供了更詳細的拓樸架構、負載平衡與雍塞管理資訊。Meta這麼做的理由是因為他們完全擁有這套網路架構的設計,不像InfiniBand版本的網路架構是基於Nvidia的技術。
● 網路拓樸架構
基於RoCE乙太網路的Llama 3叢集,是藉由3層式網路拓樸架構,將叢集中的24k個(24,576個)GPU連結在一起。
最底層是個別AI伺服器層級的互連,每兩臺AI伺服器共同安裝在1座機櫃(Rack)上,透過DAC銅纜連接到稱作機櫃訓練交換器(Rack Training Switch,RTSW)的TOR交換器上,每座機櫃一共含有16個GPU。
中間層是機櫃層級互連,每座機櫃的RTSW交換器,透過400Gb光纖纜線連接到叢集訓練交換器(Cluster Training Switch,CTSW)上,然後,192座機櫃可以藉由CTSW交換器之間的連結,構成1組包含3,072個GPU的Pod單元,並具備完整的頻寬對分(Bisection Bandwidth)設計,讓每個GPU之間都有完整的400Gb頻寬,確保不會有超額配置(Oversubscription)的情況。
RTSW交換器與CTSW交換器這2層,組成了AI區域(AI Zone),RTSW構成枝葉交換器(leaf),CTSW作為主幹交換器(Spine),可支援數千個GPU互連,我們推測1個含3,072個GPU的Pod單元,應該就是1個AI區域最大規模。
但Llama等新一代大語言模型,所需要耗用的GPU數量,明顯大於單一個AI區域所能提供的GPU數量規模。所以,Meta在RTSW與CTSW交換器這2層之上,再加上跨AI區域的聚合層,利用聚合訓練交換器(Aggregation Training Switch,ATSW)連接不同AI區域CTSW交換器,建立跨AI區域、跨Pod單元互連。
同一資料中心建築內的8組Pod單元,利用ATSW交換器互連組成含有24k個GPU的叢集。
但聚合層的網路連線並未維持完整頻寬對分設計,而採用1:7超額配置比率。我們推測這或許是基於成本考量,要在聚合層為24k個GPU提供無超額配置的傳輸頻寬,所需成本過高,效益又相對不顯著所致——大部分資料流量都是在個別AI區域內,跨AI區域流量相對有限,因而可容許一定程度超額配置。
另一方面,Meta的Llama 3模型平行作業架構,以及訓練作業排程器(training job scheduler),也針對前述網路拓樸做了最佳化,以最大限度地減少跨AI區域的資料流量,以緩解聚合層因頻寬超額配置導致的流量瓶頸問題。
● 負載平衡
Meta表示,相較於傳統的資料中心工作負載,大語言模型的網路資料流具備幾個不同的特徵,包括資料流數量與樣式明顯較少,通常是重複且可預測,但會在毫秒(millisecond)層級上,出現突發性(Burstiness)流量衝擊,而且在突發流量發生時,強度可達到網路卡的線速,幾乎會佔滿網路卡的傳輸頻寬。
而這樣的特徵,也給支援大語言模型訓練的網路架構,在流量的負載平衡與壅塞管理上,帶來新的挑戰,促使Meta在Llama 3訓練網路架構中,引進有別於傳統架構的負載平衡與壅塞管理機制。
Meta指出,大語言模型的訓練過程所產生的「胖(fat)」網路資料流,不易藉ECMP路由(等成本多路徑)等傳統方法,在可用路徑有效進行負載平衡。
為此Meta採用下列兩項技術:
首先,Meta以Nvidia NCCL的負載平衡集體傳輸庫(collective library),做為基礎,在2個GPU之間建立與維持16個網路流,不像一般只有1個網路流,藉此可減少每個網路流的流量,並為負載平衡工作提供更多可操作的網路流。
其次,利用增強型ECMP協定(E-ECMP),為RoCE封包標頭的附加欄位進行雜湊處理(hashing),從而可以在不同網路路徑上,有效地平衡GPU與GPU之間的16個網路流。
● 壅塞管理
Meta最初是採用傳統的DCQCN(資料中心量化壅塞通知)來進行壅塞控制,但發現在400Gb網路上效果不佳。
於是Meta放棄DCQCN,改在主幹網路(Spine)交換器,也就是CTSW交換器這一層,使用深度緩衝技術(Deep-buffer),利用GPU的HBM記憶體來維持多個傳輸通道,作為傳輸緩衝區,因應多處理器集體通訊引起的瞬間壅塞。
Meta表示,這種作法有助於限制陷入慢速的伺服器,所導致的壅塞與網路背壓(network back pressure)衝擊,這種情況在訓練過程中很常見。
此外,藉由E-ECMP協定實現更好的負載平衡,也顯著降低壅塞的可能性。
Llama 3訓練基礎設施的GPU後端網路拓樸
後端網路一共分為3層,最底層是伺服器層級的互連,每2臺AI主機,也就是Grand Teton AI伺服器,各自透過8條400G網路連接到機架上的機櫃訓練交換器(RTSW)。
中間層是跨機櫃的互連,機櫃的訓練交換器(RTSW)接到上一層的叢集訓練交換器(CTSW)上,組成跨機櫃的GPU互連網路。而192座機架藉由CTSW交換器的連結,構成1組包含3,072個GPU的Pod單元,這應該也是一個AI區域(AI Zone)的最大單位。
最上層則是跨AI區域的互連,利用聚合訓練交換器(ATSW)連接不同AI區域的CTSW交換器,建立跨AI區域、跨Pod單元間的互連。圖片來源/Meta
持續擴張中的AI運算環境
無論就規模或運算力,Meta 24k GPU叢集都是當前AI訓練基礎設施的頂點,儘管如此,這還未達到Meta幾年前設定的目標。Meta在2020年曾提出AI運算基礎設施目標:在1EB容量的資料集上、訓練擁有1兆個參數的模型,而目前Llama 3的規模,以及24k GPU叢集的能力,離這個目標都還有一段差距。
因此Meta目前的2座24k GPU叢集,只是該公司新一代AI訓練基礎設施建設的起步,仍在持續擴充,近期目標,是在今年年底時將35萬個H100 GPU納入AI基礎設施,屆時Meta的AI基礎設施資產將擁有相當於60萬個H100運算能力。
前述訊息是在今年3月發表,這意味著,Meta將以每個月近4萬個H100 GPU的速度,持續擴展運算能力。
不過,其他廠商也在快速追趕!
例如,馬斯克(Elon Musk)在今年4月曾透露,旗下AI新創公司xAI發展的Grok-2模型,訓練時使用2萬個H100 GPU,這樣的規模,與Meta的Llama 3模型訓練使用的24k GPU叢集,大致在伯仲之間。稍後馬斯克5月又聲稱將大肆購買Nvidia晶片,以滿足xAI下一代Grok-3模型需要的10萬個H100需求,這套新設施預定在2025年秋季打造就緒。
其他第一線大廠也有同等規模的AI硬體擴充計畫,例如,微軟Azure技術長Mark Russinovich 5月表示,他們正以每個月部署5座Eagle超級電腦的速度,擴展旗下基礎設施運算能力。Eagle是擁有14,400個H100 GPU、在TOP500名列第3的超級電腦,這意味著Azure的運算能力擴充速度,相當於每個月增加7萬個H100 GPU,比起Meta更為驚人。
從各大廠商競相擴充GPU部署規模,也可看出大語言模型對GPU運算能力需求,是如何迫切。以目前來看,為了支撐大語言模型的進一步完善,這股AI基礎設施建置熱潮,還會持續好幾年。
當前最頂級的高效能運算環境:與TOP500對比
Meta用於Llama 3模型訓練的24k GPU叢集,不僅是當前最高效能的AI研究用超級電腦,事實上也是最快的超級電腦之一。
談到全球頂級的高效能運算基礎設施,多數人首先想到的,便是名列TOP500榜單的超級電腦。然而用於自然語言處理、大語言模型等AI研究用的大型運算設施,雖然應用面向與這些超級電腦略有差異,但是在效能與規模上,其實不比這些超級電腦遜色。
我們將Meta 24k GPU叢集的運算核心規格,與TOP500榜單中幾臺較知名的超級電腦運算核心規格,列於下表當中進行對比。由於Meta並未公布24k GPU叢集使用的CPU型號,所以我們無法計算總核心數,而只能比較CPU與GPU數量,但即便如此,24k GPU叢集的處理器規格與數量規模,確實可與TOP500前3名超級電腦媲美,甚至猶有過之。
熱門新聞
2024-09-13
2024-09-10
2024-09-09
2024-09-09
2024-09-12
2024-09-10
2024-09-11
2024-09-10