首款支援四顆Opteron處理器的2U機架式伺服器

推廣Opteron不遺餘力的Tyan,在今年Computex期間發表支援四顆Opteron 8××處理器的Transport TX46(B4882TX46),這也是世界上首款四顆Opteron處理器的2U機架式伺服器。目前另一款四Opteron伺服器是HP的DL585,但卻是4U的產品,Sun預定中的V40z,也僅作到3U。

硬體規格

TX46採用Tyan K8QS Pro S4882主機板,支援四顆Opteron 8××處理器,提供每顆處理器各四條DIMM,確保每顆處理器的記憶體均可安裝四條以提供Chipkill功能,最大可安裝32GB主記憶體,支援DDR200/266/333/400規格。由於AMD 8131 HyperTransport PCI-X Tunnel實作兩組PCI Bridge、提供兩組獨立的PCI-X匯流排,所以兩條64位元、66/33MHz PCI-X透過Bridge A,兩條64位元、133/100/66/33MHz PCI-X透過Bridge B,另外再由AMD 8111 HyperTransport I/O Hub提供一條32位元/33MHz PCI,總計四條PCI-X以及一條PCI。AMD日前已經發表新款的AMD 8132,支援266MHz的PCI-X 2.0規格,預定第三季將開始供貨,屆時S4882應有更新的版本。

系統I/O功能上也相當完善,內建LSI 53C1030 Ultra320雙通道SCSI控制晶片,支援LSI ZCR(Zero Channel RAID)。網路介面則為Broadcom BCM5704C雙埠GbE晶片。由於PCI-X Bridge A所負責的頻寬需求較低,所以兩者均接續在PCI-X Bridge A。另外,S4882也內建Silicon Image si3114 Serial ATA控制晶片,提供四埠Serial ATA 1.0以及RAID 0/1/0+1功能,內建顯示晶片則採用ATI Rage XL 8MB,這些PCI裝置都接續在AMD 8111。

值得注意的是,雖然AMD 8111在規格上支援USB 2.0,但是因為實作上的缺陷之故,一直無法正常啟動2.0功能,AMD在勘誤文件中也表示,在未來將不會有修正的計畫,建議廠商及客戶「另外安裝USB控制器」,所以S4882另外內建一顆VIA VT6212 USB控制晶片以提供USB 2.0功能,且僅限於背板的USB埠,前板USB埠依然沿用AMD 8111,當然也僅有USB 1.1可用。S4882的記憶體模組布置上亦有值得改進之處,第一顆和第三顆處理器的DIMM距離過近,導致記憶體的安裝相當不便,在第二/第四顆處理器之間就沒有這樣的問題。

機構設計

TX46內建一顆700W電源供應器,並無備援供電,而電源供應器置於機身前方是相當少見的設計,這大幅限制了面板空間所能提供的擴充能力。TX46面板提供電源、硬碟、以及兩埠GbE的狀態燈號,兩埠USB 1.1埠,兩組Ultra320 SCSI熱抽換硬碟空間,內建一臺光碟機,以及安裝一臺軟碟機的空間。相較於一般的2U伺服器,TX46的擴充性略為偏低,在2U的有限空間內,實作四處理器系統的困難,依稀可見。

TX46的散熱設計相當的「暴力」,機身中段提供四組系統風扇,機身面板及背板都滿布著通風孔,結合四顆Opteron的處理器風扇,TX46運作時的噪音相當的驚人。當然,基本上,機架式伺服器是不需要考慮噪音問題的。

不過,參考其它廠商的機架式伺服器機構設計,事實上TX46還有很大的改進空間。首先,TX46應可透過較小型的電源供應器,實作備援供電。以SuperMicro YH-5711C(700W)和PWS-0044(600W)為例,TX46的電源供應器空間足以安裝兩組這樣的小型電源供應器;如此一來,就算不實作備援供電,亦可提升機身的擴充能力。另外,軟碟機上方應可提供一顆硬碟的安裝空間。最後,雖然機身上蓋的拆卸相當簡易,但是由塑膠製作的卡筍,卻有著不夠堅實的問題,我們在測試的過程中,數次遭遇卡筍「彈跳後在空中解體」的狀況。如果透過更堅固的材質製作,應可避免這樣的問題。系統管理機能

TX46支援IPMI 1.5版本,不過必須另外選購採用QLogic Zircon BMC控制器(ARM7核心)的IPMI控制卡。系統管理軟體則為Tyan Server Monitor(TSM),目前最新版本為2.2.3,分為TSM Server及TSM Console兩部分,只要在伺服器端上安裝啟動TSM Server、設定管理者帳號密碼,管理者就可遠端透過TSM Console監控系統狀態、設定警告臨界值以及警告回傳方式。不過,TSM並未提供網頁管理介面,而且在我們進行測試時,Tyan尚未推出S4882主機板的更新檔案,所以無法實際使用管理機能。

效能測試:分析CC-NUMA的優缺點

透過分別進行SPEC CPU Rate 2000及NetBench 7.0.3的測試,分析Opteron採用CC-NUMA分散式記憶體架構的優缺點,成為我們本次效能測試的重心。

測試處理器及記憶體系統效能: SPEC CPU 2000 Rate

SPEC CPU效能測試軟體歷經SPEC CPU 92、SPEC CPU 95、SPEC CPU 2000以及即將發表的SPEC CPU 2004,一直都是產業界及學術界公認最具權威性的處理器效能標竿,而SPEC CPU中針對多處理器環境進行輸出率(Throughput)測試的SPEC CPU Rate項目,更是眾多伺服器廠商的重大效能評測標準。基本上,影響SPEC CPU效能的主要因素,在於系統所採用的處理器、記憶體以及所使用的編譯器。

TX46在SPEC CPU 2000 Rate下的表現令人印象深刻,無論整數及浮點都是我們歷來測試伺服器中的最高分。另外,和採用雙Xeon DP 2.8GHz的SuperMicro 7043P-8R相比,整數和浮點都有三倍的表現。整數部分足以和採用四顆Xeon MP 3GHz(內建4MB第三階快取的版本)的HP DL580G2抗衡,浮點則享有接近50%的優勢。值得注意的是,由於各廠商在SPEC網站所登錄的數據,多半都是經過更換函式庫、進行大量最佳化後加上「千中選一」的最佳結果,比較過AMD官方的登錄數據,事實上Opteron的優勢是相當明顯的,如果可以使用成熟的64位元作業系統及針對x86-64最佳化的編譯器(如PGI和PathScale),效能差距將會更大。

由於Opteron採用整合式的記憶體控制器,每顆處理器都擁有獨立的記憶體頻寬,所以相較於傳統UMA SMP的Xeon處理器,Opteron多處理器環境的效能可延展性(Scalability)就遠非Xeon所能企及,這就是CC-NUMA最大的優勢所在,也是Opteron在HPC市場的重要利基。但是,正如同硬幣有正反兩面,世界上並無十全十美的事物,我們將在下面將看到截然不同的結果。

測試系統I/O及網路效能: NetBench 7.0.3

SPEC CPU 2000並無法測試儲存系統、系統I/O以及網路的效能,所以我們另外採用VeriTest的NetBench 7.0.3進行測試,在15臺個人電腦上安裝英文版Windows XP Professional SP1,而且更新到最新狀態,並安裝NetBench 7.0.3用戶端程式。NetBench主控端電腦配備則是英特爾Pentium 4 3.06GHz處理器、1GB記憶體及Maxtor 80GB硬碟,安裝Windows Server 2003與NetBench 7.0.3控制端,更新到最新狀態並啟用網域控制器功能,讓用戶端電腦登入網域。為了避免測試過程中受到外部網路的干擾,測試環境的區域網路與外界完全獨立。

在區域網路建置方面,我們採用具有24埠10/100 BASE-T埠與2組GbE/GBIC埠的Asus GigaX 2024。15臺用戶端使用10/100 BASE-T網路卡連接,而主控端及伺服器則使用GbE網路卡,我們將待測的伺服器連接到交換器的GbE埠,以取得最佳的網路傳輸效能。不過,由於各家廠商伺服器的儲存配備不一,所以我們並沒有啟動RAID功能。

在NetBench的設定方面,我們採用預設的測試檔Enterprise Disk Mix(emt_dm.tst)測試伺服器,該測試檔可模擬企業使用情況,提供封包負荷量較大的測試。我們並調整參數值,將用戶端的啟動及結束時間(Ramp Up/Down)設定為10秒鐘,測試時間訂為180秒,讓設備可以在測試過程中承受最大的負荷量,藉以反應設備的測試效能。測試所得的數據即代表伺服器的傳輸效能,這些測試的結果會因為用戶端數量及資料傳輸量多寡而有所差異。值得注意的是,除了效能的尖峰值外,傳輸曲線的穩定度也是相當重要的參考指標。

結果TX46在NetBench的表現不盡理想,和SuperMicro 7043P-8R相比並未佔到任何便宜,而且在12臺用戶端時即遭遇傳輸率上的瓶頸。更值得注意的是,我們另外移除兩顆Opteron,將兩顆處理器個別安裝四條512MB記憶體以維持相同的4GB記憶體容量後,NetBench測試結果幾乎和四處理器相差無幾。我們也比較過分別啟動AHCI SRAT及Node Interleaving的差別,是否啟動作業系統CC-NUMA功能的效能差距並不明顯。

很明顯的,分散式的記憶體架構降低了I/O設備對主記憶體存取的效率,因為I/O需求都必須「環遊世界」去存取分散在各處理器的記憶體。雖然HyperTransport的理論頻寬相當高,但是匯流排仲裁及遠端存取的額外延遲,還是會對效能造成相當不利的影響。

x86-64版本Windows Server 2003 企業版

微軟在今年二月先後提供Windows XP及Windows Server 2003 AMD64測試版的免費下載試用,所以我們在先前四月Gigabit交換器採購特輯及本次產品報導中進行過Windows Server 2003 AMD64的測試。在NetBench的測試中,很明顯的,64位元版本作業系統有著較佳的I/O效率,這來自指令指標器以及整數邏輯通用暫存器從32位元加長至64位元、且通用暫存器數量增加一倍所致。

不過,64位元環境的驅動程式尚未完善,像ATI Rage XL尚無Win64驅動程式,而Broadcom BCM5704C也僅有第二個測試版本,這些都將會影響64位元作業系統的實用性及效益。微軟Bill Gates先前在WinHEC,疾呼業界應盡速進行64位元驅動程式的開發,並不是沒有道理的,這也將影響Opteron的64位元優勢所可以發揮的程度。TX46的市場定位及AMD的後繼挑戰

TX46在2U機身內即可支援四顆Opteron,周邊功能上亦相當完整,尤其可安裝最多32GB的主記憶體以及五張PCI功能卡,這些都是TX46的獨特優勢。不過,缺乏備援供電器、備援系統風扇以及周邊裝置可擴充性,卻是TX46的弱點,TSM的管理機能不夠完善也是一個隱憂。整體而言,相較於企業應用,TX46比較適合做為構建Cluster之用的高運算密度伺服器。

另外,英特爾已於6月28日發表首款64位元Xeon DP「Nocona」,AMD失去了長達一年的64位元保護傘,兩家公司終於在64位元x86伺服器市場開始短兵相接。雖然AMD在CC-NUMA以及HyperTransport上依然擁有獨特利基,也比較利於構建大型分散式系統,但是英特爾擁有壓倒性的產能及製程優勢,也較能提供穩定的供貨量。

AMD今年第一季的Opteron出貨量約為七萬顆,超出去年的總合六萬七千顆,英特爾的Xeon卻高達「六百萬顆」-這些將陸續轉換成64位元的處理器。英特爾在Nocona所採取的定價策略,更是直接針對Opteron而來,3.6GHz、3.4GHz、3.2GHz、3GHz及2.8GHz的售價分別是851、690、455、316及209美元,直接對應Opteron 250、248、246、244及242。換言之,在英特爾64位元Xeon MP「Potomac」延期至明年第二季、第一季推出Cranford「墊檔」的情況下,AMD的優勢將僅限於四處理器以上的系統。AMD x86-64一直缺乏完善的軟體發展環境則是另一個隱憂,尤其是Windows平臺的最佳化編譯器。更值得注意的是,英特爾IA-32e並不完全與AMD x86-64相容,指令集架構上有著諸多相異之處。英特爾預計近期內將推出支援IA-32e的Intel Compiler 8.1,極有可能編譯出來的IA-32e二進位執行檔無法在K8上正常執行。由於英特爾的編譯器的最佳化能力在業界頗負盛名,而且微軟Visual Studio .NET 2004可能年底才會上市,如果此事成真,對AMD以及企圖發展x86-64應用軟體的開發者而言,不啻是極為沉重的打擊。AMD也意識到這個問題,近期開始在軟體研發上投入較多的資源及人力,不過緩不濟急,AMD遲早要面對自行開發編譯器的需求。為了維繫優勢,AMD希望能搶在英特爾之前推出雙核心Opteron,以及推動x86-64的指令集擴充計畫,甚至預定今年內將有廠商發表八顆Opteron的大型伺服器系統。不過,基於英特爾在製程技術及產能的優勢實在是太大,AMD想要守住在伺服器市場所佔有的一席之地,勢必還有一番艱苦的市場競爭。文⊙劉人豪Opteron系統要如何啟動「有效」的Chipkill?

由於Opteron的Chipkill是採用4× Bit Scattering實作,所以要啟動「有效」的Chipkill,就必須滿足兩項條件,缺一不可:一、每顆處理器的記憶體模組必須安裝四條容量相同記憶體。二、記憶體模組必須採用4位元寬的顆粒,也就是俗稱的Chipkill Module。換言之,這是相當嚴格的限制,而市面上諸多記憶體模組數量不對稱的Opteron主機板(如部份處理器分配四條模組,其它的僅分配兩條),其Chipkill實用性就是一個非常大的問號。另外,啟動Chipkill功能將會增加Opteron記憶體控制器兩個時脈周期的額外延遲導致降低效能,這也是值得注意之處。AHCI SRAT與Node Interleaving

相較於共用北橋記憶體控制器的UMA SMP,雖然CC-NUMA整體的記憶體頻寬佔有優勢,但是作業系統、BIOS以及應用程式必須針對NUMA進行最佳化,以避免處理器經常對其他處理器的實體記憶體進行存取動作而降低效能。AHCI 2.0規格提供Static Resource Affinity Table(SRAT)功能,將系統實體拓樸告知作業系統,可協助支援NUMA架構的作業系統(如Windows Server 2003和Linux 2.4.20 AMD64核心),將執行緒及記憶體配置,針對處理器和實體記憶體的對應關係進行最佳化,以改善效能,亦可支援採用Memory Sparing及Hot-Plug Memory Mirroring的記憶體系統。

另外,Opteron的記憶體控制器提供記憶體Node Interleaving功能,顧名思義,就是讓記憶體交錯存取延伸至所有處理器的實體記憶體上,以提升記憶體存取效能,使用者可在BIOS選單中予以啟動。不過,AHCI SRAT目前並未支援Node Interleaving,使用者只能二選一。

據Tyan的說法,他們傾向建議使用者啟用Node Interleaving,因為目前的作業系統針對AHCI SRAT的最佳化程度都不夠,尤其Windows明顯遜於Linux。

而根據我們本次的測試,啟動AHCI SRAT的效能略勝過Node Interleaving,但差距並不明顯。不過,如果作業系統有支援AHCI SRAT,我們建議使用者還是啟動該項目,未支援時才使用Node Interleaving。

熱門新聞

Advertisement