具備運算力、可靠度、穩定度、安全性、管理等五大優勢的 Dell PowerEdge GPU 加速型伺服器,能為不同 AI 應用需求提供合適算力,讓企業能在安全無虞、易於管理的環境中,快速啟動生成式 AI 專案,取得市場領先優勢。


2022 年底問世的 ChatGPT,展現出無所不能的全方位能力,打破多數人對於 AI 模型僅能用於單一服務的刻板印象。ChatGPT 採用的生成式 AI(Generative AI)技術,被喻為是 AI 2.0 革命性產品,更引爆企業推動相關專案的意願,只是得克服AI人才不足、尋找合適應用場景、建置基礎架構等挑戰。
為協助企業加速啟動生成式 AI 專案,戴爾科技集團新一代 Dell PowerEdge GPU 加速型伺服器系列,分別是主打高階應用的 Dell PowerEdge XE9680、鎖定中階市場的 Dell PowerEdge XE9640/XE8640,以及專攻主流應用的 Dell PowerEdge R760xa 等四款產品,讓企業可依照 AI 專案需求選擇合適方案。
戴爾科技集團資深技術顧問黃敏俊指出,備受關注的生成式 AI,由於採用參數量高達 1760 億的大語言模型,結合自家專業領域的資料進行訓練,所以不光對 GPU 算力需求極大,也需要能提供高可靠度的伺服器平台。Dell PowerEdge GPU加速型伺服器共有四款產品,儘管不同產品型號支援的 GPU 數量有差異,但都採用獨家研發的散熱與冷卻技術、安全管理機制等,絕對是企業推動生成式 AI 專案的最佳方案。
四款產品各具特色 滿足不同應用需求 
看準企業推動生成式 AI 意願大增,目前有不少業者在公有雲平台推出 AI 服務。但在考量整體推論、訓練成本,以及資料可能洩露的風險下,多數企業仍然偏好購買 AI 伺服器,在公司內部執行相關專案。
全新問世的 Dell PowerEdge XE9680 伺服器,在 6U 高度的機箱空間中,採用第 4 代 Intel Xeon 可擴充處理器,可安裝 8 顆輝達 A100/H100 晶片的 SXM 模組,輕鬆滿足生成式 AI 專案需求。該伺服器在擁有絕佳的 AI 算力之外,也融合PCIe Gen 5、DDR5、NVMe Gen 5、優化開機專用的 BOSS 卡、PowerEdge RAID 控制器(PERC)12 系列,增加支援 24 Gbps SAS 傳輸速率等技術。至於散熱機制部分,則使用戴爾科技集團的氣冷散熱技術,可確保伺服器機箱即便在35 度的溫度下也能穩定運作。
黃敏俊表示,在 2023 年 4 月正式發佈的 MLPerf Inference v3.0 AI 推理基準性能測試中, Dell PowerEdge XE9680 AI 伺服器在 RetinaNet Server、RetinaNet Offline、R- NNT Server 等 3 個項目取得第 1 名,另外 9 個項目也獲得第二名肯定。此亮眼成績證明 Dell PowerEdge XE9680 無論在可靠度、算力、穩定性等部分,都能通過非常嚴苛的考驗。
至於針對中階市場推出的兩款產品,其中 Dell PowerEdge XE8640 伺服器高度為 4U,同樣採用第 4 代 Intel Xeon 可擴充處理器,可安裝 4 顆輝達 H100 晶片的 SXM 模組,搭配戴爾科技集團獨家開發的液體輔助氣冷散熱技術。至於採用液體冷卻技術的 Dell PowerEdge XE9640,機箱高度大幅縮小到僅有 2U,可安裝 4 顆輝達 H100 晶片或 Intel Data Center GPU Max 系列晶片。
而專為推論、主流應用的 Dell PowerEdge R760xa 伺服器,亦採用標準的 2U 機箱高度設計,最多可安裝 4 張 PCIe 介面的 GPU 卡,支援輝達、超微、Intel 等品牌,讓企業享有逐步擴充 GPU 算力的方便性。

更進化的氣冷、液冷散熱解決方案加持   確保 GPU 伺服器穩定運作
過去幾年受惠於 GPU 算力快速成長,加上 AI 演算法快速普及,多數企業早已啟動各種 AI 專案,根據 IT Director公 布研究報告指出,已有 71 % 受訪者表示已在工作中使用 AI。早期 AI 技術是針對單一特定領域設計,大多數服務僅需要 1 張高階 GPU 卡即可運作,因此伺服器原有散熱機制搭配 GPU 晶片上的散熱風扇,即能維持整機系統穩定運作。
然而生成式 AI 技術是運用數十億參數以上的大語言模型進行推論、訓練,所以通常需要搭配 4~8 顆 GPU 晶片使用,才能獲得足夠的 AI 算力。當多顆 GPU 晶片在狹小機箱內部同時運作時,產生熱能絕對非同小可,若沒有完善散熱機制輔助,勢必會讓 GPU 伺服器出現熱當機,最終在保護機制啟動狀況下,陷入系統不斷重新開機、AI 專案難以執行的狀況。
「我們在投入新一代伺服器研發工作時,早就觀察到企業對 GPU 算力需求日益增加下,AI 伺服器勢必會消耗更多電力與產生熱能,所以早就投入高效能散熱機制開發。」黃敏俊解釋:「我們針對不同應用伺服器的定位與需求,分別設計全新的氣冷與直接液體冷卻機制, 讓 GPU 晶片在全速運算時,也不用擔心熱能過高,而影響到伺服器的穩定性與可靠度。」
在氣冷機制部分,戴爾科技集團採取三項獨步設計,首先針對 Dell PowerEdge 伺服器內部機構,特別優化冷空氣的流動路徑,可將適量冷空氣導向至需要散熱的位置。其次,採用最新一代的高效能風扇與散熱器,能將伺服器內部的熱空氣快速且有效率地排出外部,達到維持系統穩定運作的目的。最後,伺服器採用智慧型散熱演算法,會在工作負載或環境變更時,自動調整氣體流動方向與風扇轉速,達到減少耗電量與熱能產生的目的。至於專為特定機種設計的直接液體冷卻技術,則是將相關冷卻模組運用於高速運作的 CPU、GPU 晶片之中,達到快速提升整體散熱系統效率。其中的漏液偵測技術(leak-sensing technology,一旦發生冷卻液外洩,伺服器的滲漏感測器會回報到 iDRAC 遠端管理系統中,記錄相關的警示。
前面提到,在駭客攻擊層出不窮下,資安已成為企業最在意的環節,所以 Dell PowerEdge GPU 加速型伺服器承襲多項備受好評的安全機制,如內建矽晶片信任根與安全元件驗證(SCV)等,可防範未經授權人士存取或竄改,同時確保產品從設計到交付過程的供應鏈安全。此外,資訊人員亦可透過 iDRAC 管理工具,整握伺服器的運作與健康狀況。
在生成式 AI 浪潮來襲之際,從算力、可靠度、穩定度、安全性、管理層面分析,全新問世的 Dell PowerEdge GPU 加速型伺服器絕對是企業不容錯過的最佳選擇。

 

熱門新聞

Advertisement