圖片來源: 

微軟

微軟在周二(11/18)舉行的Microsoft Ignite年度技術大會上揭露了Fairwater的新成員,是座落在喬治亞洲亞特蘭大的資料中心園區,將與9月於威斯康辛州發表的AI資料中心,過去數代的AI超級電腦,以及更廣泛的Azure全球資料中心網路相互連接,形成全球第一座行星級AI超級工廠。

微軟是在9月首度提到Fairwater,以作為新一代AI資料中心站點級的品牌名稱,每一座Fairwater都是AI超級工廠的組成單位,採用新一代AI資料中心的設計。

傳統雲端資料中心旨在運行許多較小的獨立工作負載,例如託管網站、電子郵件或是業務應用程式,但Fairwater站點不同,它使用單一網路連接數十萬個最新的Nvidia GPU,以AI超級電腦之姿運作,但其性能遠超越目前全球最快的超級電腦,以前所未有的速度執行AI訓練及推論任務。最新的、位於亞特蘭大的站點,同樣也將整合數十萬個最新的Nvidia GB200與Nvidia GB300 GPU。

Fairwater採用單一且連貫的NVIDIA Blackwell GPU叢集,透過扁平化網路突破傳統Clos限制,可支援數十萬顆GPU協同運作。每機架最多容納72顆Blackwell GPU,以NVLink提供低延遲與1.8TB頻寬,並具14TB共享記憶體。機架間則以雙層乙太網路串接成大型叢集,達每GPU 800Gbps,結合SONiC與高頻遙測實現低延遲、可靠且具成本效率的AI網路。

Microsoft以專用AI WAN光纖連接多座Fairwater站點,全年鋪設超過12萬英里光纖,使不同世代超級電腦能跨州協同運作,形成行星級AI超級工廠。Fairwater還支援多工作負載動態調度,包括預訓練、微調、強化學習與合成資料生成,以提高整體GPU使用率。

微軟說明,Fairwater的設計目標為最大化運算密度,以降低機櫃內及機櫃間的延遲,並提升系統效能;其中,提高冷卻技術是提升密度的重要手段之一,Fairwater採用整座園區級的液體冷卻系統,以封閉循環方式使用冷卻液,初次灌注的用水量約等於20戶家庭一年的用水量,只要水質維持在化學標準範圍內,便不需更換,理論上可連續使用超過6年,可大幅降低耗水量並提升永續性。此外,液冷具備更高的熱傳效率,可讓機架與機排的功率達到更高水準,得以以最高密度部署運算。

另一項提升密度的方式,是採用兩層樓的資料中心建築設計,由於許多AI工作負載對延遲極為敏感,因此纜線長度會大幅影響效能。但Fairwater中,每一顆GPU都需要能連到所有GPU,而兩層樓的設計可在三維空間中安置機櫃,將纜線長度降到最短,進而改善延遲、頻寬、可靠度與成本。

傳統資料中心通常採用大型單層鋼構,原因包括單層更容易承重、方便執行氣流管理、方便佈線或配置電力,或是避免大型設備震動,這使得為了縮短纜線而使用兩層樓設計的Fairwater非常罕見,也只有AI超級電腦才需要把所有GPU互連成一臺巨大機器。

另一個讓亞特蘭大雀屏中選的原因是當地的電網非常穩定,可在3×9(99.9%)成本下達成4×9等級(99.99%)電力可用度,因而無需使用傳統資料中心的備援電力設備,進而節省了成本、空間及建置時間。

圖片來源/微軟

熱門新聞

Advertisement