Meta公開其GenAI基礎設施，兩個叢集分別具備2.4萬個GPU

圖片來源:

Meta

Meta周二（3/12）公開了該公司所使用的生成式人工智慧（GenAI）基礎設施，內含兩個各採用24,576個Nvidia H100 GPU的大型資料中心叢集，以及相關的網路、運算與儲存部署。

其實Meta在2022年便曾揭露該公司所打造的AI叢集AI Research SuperCluster（RSC），當時便宣稱這是全球速度最快的超級電腦之一，它使用了1.6萬個Nvidia A100 GPU。

而本周Meta所揭露的GenAI叢集雖然採用兩種不同的網路架構，但皆配備了24,576個Nvidia Tensor Core H100 GPU。Meta表示，這兩個叢集聚集於高效能的網路結構，使得它們可支持比RSC更大且更複雜的模型，可替未來發展先進GenAI產品開發及AI研究鋪路。

Meta解釋，該公司每天要執行數百兆個AI模型，大規模地遞送相關服務需要非常先進且彈性的基礎設施，因而需要客製化自己的硬體、軟體及網路架構，以優化AI研究人員端到端的經驗，同時確保資料中心的高效運作，因而採用不同的網路設計。

其中一個叢集是基於Arista 7800、Wedge400與Minipack2開放運算計畫（OCP）機架交換器的RDMA over Converged Ethernet（RoCE）解決方案，為一可透過乙太網路自遠端直接存取記憶體的網路協定，此一協定主要適用於諸如網路儲存或叢集運算等需要高頻寬與低延遲的網路基礎設施。

另一個叢集則是採用Nvidia的Quantum2 InfiniBand架構，該架構同樣也是專為高效能運算的低延遲與高頻寬所設計。這兩個叢集的端點互連速度皆高達400 Gbps，採用不同網路架構將有利Meta評估不同類型的互連對大規模訓練的適用性及可擴展能力，以作為未來設計與建置更大規模叢集的參考。

圖片來源／Meta

除了網路架構之外，它們皆採用Meta內部設計、並已貢獻給開放運算計畫的GPU硬體平臺Grand Teton，該平臺是以許多不同世代的AI系統為基礎，並在單一的機箱中整合了電源、控制、運算與架構介面，以達到更好的效能、訊號完整性及熱效能。

在儲存上則是採用基於Meta內部Tectonic分散式儲存解決方案的Linux Filesystem in Userspace（FUSE）API ，它滿足了AI叢集對資料與檢查點的需求，令數千個GPU得以同步保存及載入檢查點，同時提供資料載入時所需的彈性，以及EB儲存等級的吞吐量。

Meta亦與Hammerspace共同開發一個平行網路檔案系統（NFS）部署，以迎合開發者對AI叢集的體驗需求。Hammerspace的優點之一是允許工程師可利用數千個GPU的資源進行任務的互動除錯，因為當程式有所變更時，此一環境中的所有節點都可立即存取。

打造大規模AI叢集的挑戰之一為同時維持其高效能及易用性，於是Meta藉由比較小叢集與大叢集的效能來找出大叢集的瓶頸並將其優化。Meta坦承，在甫完成大叢集的部署之際，其最初效能很差且不一致，因而經由調整網路拓撲，並結合對Nvidia Collective Communications Library（NCCL）的變更來優化網路路由政策，以實現最佳的網路利用率，而讓大型叢集達到與小型叢集一樣出色的預期效能。

Meta仍計畫持續建置並擴張大型GenAI叢集，計畫今年底便會擴大其基礎設施至包含35萬個Nvidia H100 GPU，並將創造等同於60萬個H100 GPU運算能力。

熱門新聞