AMD
【舊金山現場直擊】今年6月ISC 2023國際超級電腦大會,全球最新的500大超級電腦排名剛剛熱騰騰出爐,採用AMD產品上榜的超級電腦共有121個。連續3屆位居全球超級電腦第1的美國橡樹嶺國家實驗室旗下超級電腦Frontier,採用AMD EPYC處理器、Instinct加速器,以超過Exaflops效能領先其他對手。
緊接在超級電腦大會之後不久,AMD揭露了資料中心及AI一系列的新產品,展現對資料中心市場的最新布局。首先,在第4代EPYC處理器方面擴大產品線,特別針對雲原生需求,發表代號為Bergamo的EPYC處理器,一舉將現有代號為Genoa的第4代EPYC處理器核心數從96核心、192執行緒,提高至128核心、256執行緒,處理器核心、執行緒數量增加,滿足需要更高密度的雲原生應用需求。
相較於Bergamo鎖定雲原生,另一個第4代EPYC處理器生力軍則是Genoa-X,定位為資料中心流體力學、產品設計、工程模擬等技術型運算需求,支援3D V-Cache技術,最多擁有1.1GB的L3快取記憶體,相容於SP5插槽。緊接在後,2023年下半年還會推出同為第4代EPYC處理器的Siena,專門鎖定電信及邊緣運算需要。
去年AMD推出第4代EPYC處理器,作為第3代處理器的接班人,首批搶先登場的第4代EPYC處理器為Genoa產品線,今年則一口氣增加了鎖定雲原生的Bergamo、技術運算的Genoa-X及電信邊緣運算的Siena,讓這批進攻資料中心的第4代EPYC大軍,產品陣容更為完整。不論是Genoa、Bergamo、Genoa-X或是Siena,這些第4代EPYC處理器皆相容於目前EPYC 9004系列插槽,可無縫升級。
事實上,CPU僅是AMD整個資料中心拼圖中的一塊,AMD看到CPU以外更大的商機,以500億美元大手筆買下Xilinx,取得的FPGA處理器相關技術,為其增添在資料中心市場的競爭籌碼。2022年,AMD再以19億美元買下Pensando,取得DPU相關技術。
現在,除了CPU,AMD也針對資料中心內各種工作負載優化,提供對應的運算產品,例如在資料中心協助卸載CPU工作的DPU方面,AMD推出新的P4 DPU,減輕CPU虛擬化的工作負載,並推出Pensando SmartNIC。
隨著生成式AI帶動更多AI應用需求,針對資料中心興起的AI加速運算,AMD先前已推出GPU加速器Instinct 200系列,今年Instinct加速器推出Instinct MI300系列,包含採用APU設計的MI300A,定位為HPC及AI加速運算,還有更進階的MI300X,強調為生成式AI設計,以更大容量的記憶體,支援最高400億個參數的大型語言模型。
最高128核心第4代EPYC處理器問世
去年AMD推出第4代EPYC處理器首批產品Genoa,採用Zen 4微架構、5奈米製程,包含900億顆電晶體,產品型號為9004系列,內建CPU核心數從16個核心到最高的96核心,L3快取記憶體從64MB到384MB,並有不同的熱功耗設計,在整個第4代EPYC處理器家族中定位在通用計算需求的Genoa,共推出18款產品,以滿足不同的處理器規格需求,例如追求大量工作負載處理的多核心,或是追求處理器及I/O間的平衡、成本最佳化等等。
Genoa能夠推出這麼多款規格,在於將CPU核心、I/O拆分為不同的模組,CPU核心模組稱為CCD(Core Complex Die),每個處理器有12個CCD,每個CCD內有8個核心,以此達到最多96個核心,至於I/O模組(I/O Die)則是整合外部晶片組的I/O控制功能,內建12個 DDR5 記憶體控制器、SATA控制器、PCIe Gen5控制器、Infinity Fabric控制器、CXL控制器等。
這樣的設計也在Bergamo身上,同樣採用5奈米製程,相較於Genoa的Zen 4架構,Bergamo為Zen 4c架構,處理器面積要比Genoa更小35%,共有820億電晶體,在CCD及CPU核心數量上,Bergamo雖然只有8個CCD,但每個CCD擁有的CPU核心數增至16核心,因此最多可達到128個核心。至於I/O模組則和Genoa一樣採用6奈米製程。
Bergamo追求更高核心數密度,共推出3款型號,包括9734、9754S、9754,除了9734為112個核心、224執行緒,9754S與9754都是128個核心,不同的是,9754S關閉SMT功能,且只有128執行緒規格,而9754則擁有256個執行緒。TDP方面,9734的320瓦設計,而9754S與9754則是360瓦,3款型號L3快取都是256MB。
以Zen 4和Zen 4c架構對比,Zen 4每個CPU核心有4MB的L3快取記憶體,但是在Zen 4c部分,每核心的L3快取降至2MB。這是因為在雲端運算中,AMD認為對雲原生應用的優化,更重於L3快取記憶體大小。
在舊金山發表會上,AMD執行長蘇姿丰形容Bergamo使用的Zen 4c是Genoa的Zen 4加強版,當初設計Zen 4時,以每核心的最高效能進行優化,Zen 4c則是針對性能與功率平衡點作優化,達到更高的密度、能源效率。為此,AMD還重新設計Bergamo的L3快取記憶體,將每個CCD內的CPU核心提高為Genoa的2倍。
AMD以Bergamo中的128個核心第4代EPYC 9754,來和60核心的英特爾第4代Xeon 8490H相比,在網站前端、記憶體內分析,或是繁重的交易工作負載。AMD宣稱,Bergamo在各種雲原生應用中,比這款CPU高出2.6倍效能。以每臺伺服器的容器密度來看,也可以提高到2.1倍,而在執行Java工作負載的每瓦效率則有2倍。Bergamo現在已開始針對超大型資料中心業者開始供貨。
即使和同樣擁有128個核心,但採用Arm架構的Ampere Altra Max M128-30,128c處理器相比,AMD稱在每系統瓦特的效能方面,EPYC 9754也高出2.7倍,降低伺服器能源成本。
若以NGINX每秒傳送3.75億筆請求的相同的條件,AMD比較Ampere與EPYC 9754所需的1P伺服器數量,採用Ampere處理器需要65臺伺服器,而採用EPYC 9754僅需29臺伺服器,減少55%的伺服器數量,一年累計能耗可降低最多39%。相同的處理器換成2P伺服器,採用Ampere處理器需要43臺伺服器,採用EPYC 9754需要18臺伺服器,減少58%伺服器數量,一年累計能耗預期減少最多39%。
新推出的Bergamo和現有的Genoa,不論是軟體、插槽的相容性均為百分百。目前支援第4代EPYC處理器9004系列的作業環境,包括作業系統Ubuntu 22.04及SUSE Linux Enterprise 15 SP4,VMware也已在官網公告支援。
至於鎖定HPC高效能運算的新成員Genoa-X,採用Zen 4架構,搭配高效能核心,支援第二代3D V-Cache技術,L3快取記憶體最多到1,152MB;Genoa-X共有3款型號,包括9184X、9384X、9684X,16核心到最高96核心、192執行緒,TDP分為320瓦及400瓦。
超多核心處理器支援更多雲原生應用、改善穩定性
英特爾也不落人後,除了2024年將推出採用Intel 3製程節點,內含P-Core效能核心的Granite Rapids處理器,在同一年也會推出採用Intel 3製程節點,但採用E-Core效率核心的Sierra Forest,最多擁有144個核心,強調專為超大規模資料中心所設計,為雲端運算工作負載最佳化核心,有更高的密度及每瓦效能效率表現。
如下圖所示,英特爾預計在2024年推出Sierra Forest,根據先前的資料,最高擁有144個E-Core效率核心:
兩大X86處理器業者推進資料中心CPU往更多核心發展,進入破百核心競爭,順應愈來愈多的雲原生應用發展。
特別是隨著DevOps越來越普及,開發者可以快速開發、部署新功能,針對不同的應用、功能進行優化。這種快速開發維運的概念,對運算資源的運用也帶來很大的影響。
傳統做法上,大型應用部署在實體伺服器上執行,隨著虛擬化技術的成熟,伺服器運算資源可以進行分割,另一方面,單一大型應用也習慣分拆為多個小應用,這些分割的運算資源被用來執行小應用,以提高資源使用效率及彈性,隨後進入容器化時代後,可以更細緻的切分運算資源,來以執行多個小型應用或拆分的微服務,甚至是將複雜功能拆分數百個或數千個各別執行的小功能。
因此,從傳統向現代化的雲原生應用發展,應用愈多,密度也愈來愈高。因此,AMD認為,鎖定雲原生應用計算優化的處理器特性,要具有相容於X86 ISA、高效能核心、最高的核心數量及密度、廣泛的軟體生態相容性。
從企業IT維運管理來看,處理器朝超多核心發展,有助於提高資料中心的使用效率,由於資料中心空間有限,運算需求增加,過去處理器核心數有限時,企業大多透過增加伺服器的數量,以多臺伺服器增加運算的核心資源,但也衍生出大量伺服器管理、能耗等問題。
處理器內建更多核心數,例如一臺採用128核心的1P伺服器,相當於4臺採用32核心的1P伺服器總核心數,或是8臺採用16核心的1P伺服器總核心數,節省伺服器數量,有效的利用資料中心的空間,相較於管理多臺伺服器,單一伺服器在管理上相對簡化不少。
更多的CPU核心數,對企業而言,能夠執行更多的應用,或是在原本的應用數量下,提升關鍵應用執行時的穩定度。例如採用微服務架構,可能執行數百、上千個微服務,較少的處理器核心數,每個核心可能以分時執行好幾個微服務,當一個核心發生問題,就可能影響多個微服務,或是當一個微服務當機,可能會影響到共用核心的其他多個微服務。
當CPU核心數增加,微服務有機會被分配單一核心執行,或減少共用的情形,當單一核心發生問題時,不致影響其他微服務,或某個微服務當機,減少影響共用核心的其他微服務。換言之,處理器有更多核心數,在現代化IT架構中,支援企業雲原生運算需求的擴充,為企業採用新的超多核心處理器帶來更大的誘因。
但是,除了破百核心滿足企業的需求,支援記憶體容量也需要大幅提升,例如每個容器分配的記憶體有限,影響每個容器可使用的資料量,當遇到需要大量記憶體才能執行的應用,可能出現分配到的記憶體不敷應用所需的問題。
AMD更新資料中心產品布局,最高128核心EPYC處理器搶攻高密度雲原生需求,新款GPU攻生成式AI市場(下)
熱門新聞
2024-10-05
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07
2024-10-07