微軟公開Fairwater架構，串聯多座資料中心成AI超級工廠

圖片來源:

微軟

微軟在周二（11/18）舉行的Microsoft Ignite年度技術大會上揭露了Fairwater的新成員，是座落在喬治亞洲亞特蘭大的資料中心園區，將與9月於威斯康辛州發表的AI資料中心，過去數代的AI超級電腦，以及更廣泛的Azure全球資料中心網路相互連接，形成全球第一座行星級AI超級工廠。

微軟是在9月首度提到Fairwater，以作為新一代AI資料中心站點級的品牌名稱，每一座Fairwater都是AI超級工廠的組成單位，採用新一代AI資料中心的設計。

傳統雲端資料中心旨在運行許多較小的獨立工作負載，例如託管網站、電子郵件或是業務應用程式，但Fairwater站點不同，它使用單一網路連接數十萬個最新的Nvidia GPU，以AI超級電腦之姿運作，但其性能遠超越目前全球最快的超級電腦，以前所未有的速度執行AI訓練及推論任務。最新的、位於亞特蘭大的站點，同樣也將整合數十萬個最新的Nvidia GB200與Nvidia GB300 GPU。

Fairwater採用單一且連貫的NVIDIA Blackwell GPU叢集，透過扁平化網路突破傳統Clos限制，可支援數十萬顆GPU協同運作。每機架最多容納72顆Blackwell GPU，以NVLink提供低延遲與1.8TB頻寬，並具14TB共享記憶體。機架間則以雙層乙太網路串接成大型叢集，達每GPU 800Gbps，結合SONiC與高頻遙測實現低延遲、可靠且具成本效率的AI網路。

Microsoft以專用AI WAN光纖連接多座Fairwater站點，全年鋪設超過12萬英里光纖，使不同世代超級電腦能跨州協同運作，形成行星級AI超級工廠。Fairwater還支援多工作負載動態調度，包括預訓練、微調、強化學習與合成資料生成，以提高整體GPU使用率。

微軟說明，Fairwater的設計目標為最大化運算密度，以降低機櫃內及機櫃間的延遲，並提升系統效能；其中，提高冷卻技術是提升密度的重要手段之一，Fairwater採用整座園區級的液體冷卻系統，以封閉循環方式使用冷卻液，初次灌注的用水量約等於20戶家庭一年的用水量，只要水質維持在化學標準範圍內，便不需更換，理論上可連續使用超過6年，可大幅降低耗水量並提升永續性。此外，液冷具備更高的熱傳效率，可讓機架與機排的功率達到更高水準，得以以最高密度部署運算。

另一項提升密度的方式，是採用兩層樓的資料中心建築設計，由於許多AI工作負載對延遲極為敏感，因此纜線長度會大幅影響效能。但Fairwater中，每一顆GPU都需要能連到所有GPU，而兩層樓的設計可在三維空間中安置機櫃，將纜線長度降到最短，進而改善延遲、頻寬、可靠度與成本。

傳統資料中心通常採用大型單層鋼構，原因包括單層更容易承重、方便執行氣流管理、方便佈線或配置電力，或是避免大型設備震動，這使得為了縮短纜線而使用兩層樓設計的Fairwater非常罕見，也只有AI超級電腦才需要把所有GPU互連成一臺巨大機器。

另一個讓亞特蘭大雀屏中選的原因是當地的電網非常穩定，可在3×9（99.9%）成本下達成4×9等級（99.99%）電力可用度，因而無需使用傳統資料中心的備援電力設備，進而節省了成本、空間及建置時間。

圖片來源／微軟

熱門新聞