這個月下半適逢台北國際電腦展舉行,因為臺灣COVID-19疫情大暴發,仍處於居高不下的狀態,僅有部分廠商在南港展覽館秀出旗下最新解決方案,然而,網路無國界,仍有多家IT大廠按往年慣例,透過線上論壇的主題演講發布重要消息。
而在資料中心領域,尤其是伺服器硬體的部分,隨著近幾年來廠商運算平臺的推陳出新,不僅面臨核心架構、記憶體、I/O、網路、儲存等層面的技術規格世代交替變革,連帶也帶來更大的電力消耗與散熱需求。
關於這股趨勢,我們可從近期處理器的相關規格看出端倪。就伺服器CPU的最高熱設計功耗而言,去年上半問世的AMD第三代EPYC為280瓦,英特爾第三代Xeon Scalable為270瓦。若是資料中心GPU,今年最新發表的Nvidia H100為700瓦,AMD Instinct MI200系列最高為500瓦,尖峰可至560瓦。
基本上,每一臺伺服器大多會搭配1、2顆CPU,有些甚至會搭配4、8顆CPU,而資料中心GPU若產品形式是SXM或OAM,每一臺GPU伺服器會搭配4或8個資料中心GPU,有些則會搭配到16個之多,因此,每當廠商推出伺服器來搭配這些新出的CPU與GPU,我們也會去注意它們可能採用新的設計,因應持續增長的供電與散熱需求。
對此,我們看到Supermicro創辦人暨執行長梁見後在今年Computex主題演講當中,特別提到:350瓦的CPU與700瓦的GPU是未來資料中心即將要面對的運算規格。GPU目前這方面的態勢最顯著,但我們目前僅看到Nvidia展現這樣的支援──今年3月GTC大會期間,宣布推出新AI整合應用伺服器DGX H100,搭配8個熱設計功耗為700瓦的H100 GPU(CPU僅知將搭配2顆x86架構處理器)。
而在Nvidia提供伺服器廠商、用來建構GPU伺服器的整合基板HGX,我們也可以從該公司公布的規格,理解到單臺GPU伺服器面臨的功耗有多大。以HGX A100而言,有4-GPU、8-GPU、16-GPU等選擇,而今年最新發布的HGX H100,則有4-GPU、8-GPU、256-GPU(應是1座Pod,而非1臺伺服器),因此,若是採用HGX H100 4-GPU的伺服器,電源需求與散發的熱量很可觀。
想要在兼顧效能提升的狀況下,減少或抑制這些高性能處理器與加速晶片的耗電量,往往需要許多硬體工程層級的技術突破,不只是製程改良,也可能要從固態電路著手,因此,除了在HotChips這樣聚焦在晶片的活動中,能看到處理器與加速運算技術的持續演進,廠商也積極參與國際固態電路研討會(ISCC),向全球工程人員發表技術創新。
克服電量需求之餘,冷卻、散熱方式的多樣又是另一個資料中心須關注的議題。不少伺服器廠商正積極拓展這個領域的應用,紛紛提供液態冷卻、水冷的搭配選項,不過,先前我們總是以為這只是為了支援高效能運算(HPC)類型應用的產品,才需要相關配備,然而,眼見三大運算平臺廠商新一代伺服器級CPU與GPU的熱設計功耗逐漸攀升,採用液態冷卻與水冷設計的主流伺服器將日益常見,有可能會更大量出現在一般的企業資料中心,而不只是在學界的超級電腦或雲端服務業者的機房,因此,現有的資料中心設施能否充分支援這樣的設備,以及是否影響新機房的建置方式,都是需注意的部分。
關於液態冷卻技術的展現,我們在2019年台北國際電腦展期間,曾看到緯穎(Wiwynn)展出兩相浸沒式液冷系統,當中採用支援OCP規格的伺服器、48V技術,以及3M公司的Fluorinert電子氟化液設計。
後續也有多家廠商發出這方面的消息,例如,技嘉(Gigabyte)今年上半宣布協助用戶建置兩相浸沒式液冷機房,以及單相浸沒式冷卻方案。
去年台北國際電腦展前夕,Supermicro宣布推出液冷解決方案,其GPU伺服器、刀鋒伺服器、多節點伺服器、機架式伺服器,均可搭配液冷技術,他們也設計出多種方案,包含晶片導向(D2C)、浸沒式、節能背板冷卻器(RDHx)來因應不同需求,而在今年,他們強調,將不只供應氣冷、液冷裝置,還提供可熱抽換的水泵(water pump)。
面對不同廠商的研發與供給,這類散熱技術勢必日趨成熟,接下來的挑戰,應該在於用戶接受度,這將涉及設備的建置成本,以及IT人能否具備足夠能力來進行日常維護。
專欄作者
熱門新聞
2024-10-05
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07