最近2年,越來越多新一代超多核心CPU設計也都開始整合MCM多晶片模組封裝技術(Multi-Chip-Module),如AMD在設計新款64核心處理器時,就是採用這個技術,將原本一個更大核心,分拆成多個小核心,封裝在多個晶粒裡,再整合成單一CPU, 甚至還整合8個晶粒與一個共用I/O 晶粒的混合多晶片架構,藉此來換取更多核心的增長空間。(圖片來源/AMD)

在一顆伺服器處理器中,放進完整功能的64個核心,為何處理器龍頭英特爾還沒實現,3年前才重返伺服器市場的AMD卻能夠做到,甚至價格只要競爭對手Xeon處理器的一半,而且還更省電?關鍵就是AMD新款CPU採取老設計和新製程,前者是早在10年前就出現的MCM多晶片模組封裝技術(Multi-Chip-Module),後者則是最先進的7奈米製程來提高核心密度,兩者結合才能做得到。

伺服器CPU核心的演進,從最早的單核、雙核、四核到3年前多核的20核心以上,大約歷經10多年發展,但是隨著CPU核心數,從個位數突破到雙位數,現在,想要在一顆CPU加入更多核心,比以前難度更高,除了處理器設計架構變得越來越複雜,需要投入製作成本也更高,例如,英特爾過去花了3年時間,才將最高階Xeon處理器的核心,從24核提升到最高28核心,也才只多增加了4個運算核心。

兩年內翻新CPU架構,搶先超前英特爾推出64核心CPU設計

但是從32核心翻倍提高到64核心,AMD僅花了兩年時間就達成,在今年8月率先推出第二代EPYC系列x86處理器,就能提供高達64個運算核心,甚至接下來還有兩款全新EPYC處理器,將在明、後兩年問世,還能夠替下一代CPU增加更多核心。

之所以能夠在單顆CPU放進64核的一大關鍵,在於AMD採用了和以往截然不同的MCM多晶片封裝技術,來設計新一代多核處理器,可以一次將多核心、多個晶粒(Die),封裝在一個整合的單一CPU,來取代原本多核心單晶粒(Monolithic Die)的封裝方式,藉此來提高CPU總核心。

舊有MCM多晶片封裝技術,成了新一代CPU加大核心的關鍵技術

不光是增加核心數,因為這顆超多核心處理器,是以整合多個單晶粒封裝的方式,來取代以往將全部核心集中壓縮在單一晶粒的舊有單晶片封裝作法,因此,對於處理器廠商來說,設計出來的多核CPU,不僅功耗更低、良率也能提高不少。

有了MCM多晶片封裝設計,處理器廠商在設計多核處理器時,就不一定非得要將所有核心都放進單一晶粒裡,而是可以設計成多晶粒架構,將一個更大核心,分拆成多個小核心,封裝在多個晶粒裡,再整合成單一CPU。

而且比起原生多核設計,透過採用這個封裝方式設計出來的多核CPU,不只可以容納比原先更多的核心。甚至是可以達到突破性的成長,取得翻倍核心數。這正是AMD之所以可以很快提升處理器核心數量的關鍵。也是靠舊有原生多核心設計,難以實現達到的最大核心數,也只有透過採用MCM技術,才有辦法做到。

但是MCM多晶片封裝並不是新技術,早在1995年,英特爾推出Pentium Pro微處理器時,就曾採用MCM技術,來提高處理器執行效能,將L2記憶體與本體處理器電路同時封裝到單一CPU晶片,更在相隔10年發表新款Pentium D與Xeon 5000系列同樣利用此技術,推出首款雙核心處理器。甚至更早之前,IBM也曾將MCM技術用於大型主機推出另一款雙核處理器Power4。

不過,過去很長一段時間,主流多核心處理器,仍採原生多核設計, 直到近幾年,採用這個設計來加大核心的原生多核設計CPU,在核心數量上很難有更高增長,才使得MCM多晶片封裝技術重新嶄露頭角。

在2017年,AMD以這個技術搭配全新處理器架構,來打造出更大核心數的第一代伺服器處理器EPYC,比英特爾Xeon多核處理器高出了8個核心,達到32核心之多。該處理器一推出,也在伺服器市場引起熱烈迴響。

以往非主流的MCM多晶片封裝技術,現在卻成了新一代處理器加大核心的關鍵技術。

就連原本主張原生多核心設計的英特爾,也都不得不做出妥協,近來在設計新款多核心處理器時,也都開始採用MCM技術,以換取更高效能、更多核心的增長空間。例如,今年4月推出第2代Xeon Scalable系列處理器時,其中最高階型號的Xeon Platinum 9200系列處理器,就提供了多達56核心,也就是採用這個技術來增加運算核心,以對抗AMD的64核心處理器。

為了衝刺更高核心,也挑戰現有伺服器CPU設計架構

不過,採用MCM多晶片封裝作法,雖然可以很快提高核心,但是也帶來一些新挑戰,例如,各模組核心之間溝通,容易出現反應延遲,或效能減損等問題,也挑戰現有伺服器處理器的架構,也得跟上腳步,與時俱進。

所以,除了採用更先進MCM封裝技術,AMD同時也持續改進處理器設計架構,甚至每更新一代,就翻新一次CPU架構,來對應最大核心數,以發揮出原有多核處理器預期的效益。

像是在推出第一代32核心EPYC處理器時,AMD總共設計了4個不同的小型晶粒,可以把多個核心放進單一晶粒,每個晶粒更是由兩個CCX(CPU Complex)模組組成,單一個CCX內最多可放4個核心、L2快取和L3快取,總計8個CCX模組封裝,整合成為一個32核心處理器,甚至每個晶粒上,都有獨立I/O控制,也配置存取記憶體。

為了加快多核心之間的訊息溝通,AMD還開發出了一個全新Infinity Fabric高速互連架構,來提高各個CPU核心之間的溝通效率。

第二代64核EPYC處理器推出時,AMD再一次翻新CPU架構,採用更先進混合多晶片架構設計 (Hybrid Multi-Die Architecture),來打造全新的Zen2處理器架構,以放進比之前更多核心。

在這個混合多晶片架構設計下,每個晶粒體積比之前更小,因此,在單一CPU內可以封裝更多晶粒,來達到增加更多核心的效果,例如,在64核CPU內整合8個晶粒與一個共用I/O 晶粒的混合多晶片架構。又因為單一模組的晶粒,能提供最多8核心 ,所以,AMD直接稱作Chiplet(小晶片)。

通過在單一處理器內設計左右對稱各4組合計8個小晶片(或晶粒),再通過中間高速互連網路設計的一個14奈米的I/O 晶粒互連,整合成單一64核CPU。

除了核心密度的提升,Zen2架構也有不少改進,例如,不僅重新設計執行工作流程(pipeline),還加倍提高浮點暫存器(Register),與加快單一暫存器指令的載入和儲存等,來持續優化和增加新功能。

新的CPU架構在IPC (每時脈周期執行指令) 效能表現上,更較前代提高15%之多,另外,在執行AVX2指令集的浮點運算效能也有翻倍的提升。更進一步還加大處理器使用的L3快取,將記憶體總容量提高至256MB,來縮短CPU資料存取的反應時間。

AMD更宣稱,透過採用混合多晶片架構,可以讓這代CPU處理效能提高兩倍,而且具備更強的平行運算處理能力,最大可以提供多達4倍的運算吞吐量(FLOPS)。

尤其,新的Zen2架構,採用最先進7奈米製程來生產64核CPU,從原本14奈米進一步縮小到7奈米,這也意謂著,在相同晶片面積下,可以封裝更多電晶體來提高核心密度,例如,單是一顆採用7奈米64核CPU,其內含的電晶體就高達320億個。

AMD採用8個7奈米小晶片模組設計,來組成64個運算核心叢集,再封裝在單一CPU,也幫助處理器廠商在設計處理器時,不需要大幅增加功耗,就能提供更多核心,例如64核第二代EPYC處理器,最高TDP (熱設計功耗)只比一代多出45瓦,達到225瓦,但核心數卻足足多了一倍。這也是打造64核心處理器的另一大關鍵。

熱門新聞

Advertisement