Nvidia GeForce 6800 Ultra

新一代GPU「NV40」是否將為Nvidia奪回效能的王座？

Nvidia於美國時間4月13日正式發表採用代號「NV40」新一代繪圖處理器核心的GeForce 6800 Ultra顯示卡，較ATi「R420」核心的Radeon X800早了一步。這也是繼Nvidia從GeForce 256創造「GPU」一詞之後，第六代的繪圖處理器核心。2億2千2百萬電晶體的巨獸

NV40電晶體數目極為驚人，多達2億2千2百萬，幾乎是前代NV35核心的兩倍，由IBM 130nm製程所生產。不過，並非所有的電晶體都是有作用的，Nvidia為了提升良率，在NV40導入了備援電路（Redundancy Circuit）技術，所以實際上的電晶體約為2億1千萬。NV40 Ultra晶片運作時脈400MHz，記憶體則為1.1GHz、256位元寬的GDDR3 SDRAM，理論頻寬35.2GB/s。乍看之下，相較於NV35，似乎記憶體理論頻寬並沒有太多的成長，不過由於GDDR3擁有獨立的讀取/寫入資料脈衝訊號（Data Strobe），所以可以降低等待延遲、提高記憶體有效頻寬比例，而且第二階材質快取記憶體也可降低記憶體頻寬的壓力。在未來，NV40預計將搭配1.6GHz的GDDR3記憶體，晶片時脈亦可能提升至500MHz之譜。

NV40以及Nvidia目前支援PCI Express的顯示晶片，並未內建原生的PCI Express介面，而必須在顯示卡上另外使用代號HSI（High-Speed Interconnect）的橋接器。雖然在使用橋接器時，顯示晶片和HSI橋接器之間是以理論頻寬4GB/s的「AGP 16x」模式運作，但是無法彌補PCI Express 16x兩組個別獨立的4GB/s單向傳輸通道，這對效能多少有著不利的影響，橋接器也增加顯示卡的製作成本。不過，反過來說，由於PCI Express的市場尚未成熟，AGP 8x在很長的時間內依然是市場的主流，相較於ATi直接提升原生介面的做法，Nvidia的做法也並不是沒有優勢。

NV40技術上最大的焦點，就在於支援DirectX 9.0c規格，尤其是Vertex/Pixel Shader 3.0。Shader 3.0相較於Shader 2.0，最大的差異，就在於程式碼的長度以及動態分支控制流程，這大幅提升了可程式化能力及撰寫程式碼的彈性。其次，NV40擁有6組Vertex Shader，相當於NV35兩倍的幾何運算單元，這對Volume Shadow之類的特殊效果頗有助益。更重要的是，16條像素管線使得NV40可以每個時脈周期輸出16個像素/貼圖元素、或著是32個Z/Stencil值，遠邁實際上僅有4條像素管線的NV35。換言之，NV40是「16×1/32×0」、而NV35則是「4×2/8×0」的像素管線架構。根據Nvidia的技術文件，NV40單一材質的像素填充率，超出NV35的三倍，而巨大的Z/Stencil填充率也成為新一代UltraShadow陰影表現技術的基礎。

除了效能，畫面輸出的品質也是顯示晶片技術發展的顯學。在過去，全景反鋸齒（FSAA）一向是NV30/NV35系列的弱點，NV40「終於」實作了ATi早在R300就提供的4×RGAA（Rotated Grid Anti-Alias）演算法。另外，Nvidia改善OpenEXR技術，可強化透過Pixel Shader所實作的高度動態顏色範圍（High Dynamic Range），以達成更接近真實世界的動態顏色表現。NV40也在多媒體應用上著墨甚多，NV40整合了可程式化視訊處理器，整合了TV訊號編碼器、HDTV訊號輸出介面、MPEG 1/2/4編解碼以及WMV9的解碼加速電路。技術改進的重頭戲：Shader

Vertex/Pixel Shader架構的改進，就是Nvidia是否可在NV40振衰起蔽的關鍵，尤其Pixel Shader更是重要，因為這就是NV30/NV35世代產品線最大的弱點－運算性能幾乎僅有ATi同級產品的一半。NV40的Vertex Shader除了符合DirectX 9.0c的諸多規格定義（例如支援4個Vertex Texture以及Displacement Mapping等）外，實作了MIMD化的執行單元以及具備同時發出兩個Shader指令的能力，亦可從第二階材質快取記憶體擷取Vertex Texture資料。

不過，相較於Vertex Shader，Pixel Shader的架構改進幅度讓人瞠目結舌，一掃前代產品的陰霾，值得大書特書。首先，Pixel Shader的執行單元拆成兩層，所以允許兩組Shader指令在不同執行單元同時執行的能力（Dual Issue），而且兩組指令可以不必同為3D + 1D或2D + 2D格式。相較於ATi R300/R350，這是一個極為重大的進步。所以，由於NV40的Pixel Shader效能加倍，而且數量增加四倍，NV40理論上有著NV35的「八倍效能」，也相當於ATi R300/R350的四倍，這可不謂不驚人。據了解，NV40的Pixel Shader是由前3dfx的架構副總裁Emmett Kilgariff所操刀設計的。實際測試：幾乎兩倍於NV38驚人效能

這實在是歷史性的一刻：3DMark03首度出現破萬的分數，而且NV40的效能幾乎是NV38和R360的兩倍，AquaMark 3的效能也有著相當程度的成長。值得注意的是，測試Pixel Shader資料精確度、由透過36個指令所組成的fillrate9，NV40效能遠遠超過NV38和R360數倍，足以證明其Pixel Shader架構的優異性。

不過，我們檢視了透過DX9開發工具所產生的log檔案（DXView.log），發現驅動程式對於Shader 3.0的支援尚未完備，導致像ShaderMark之類的程式無法正常執行。另外，從SPECViewPerf也可以發現OpenGL驅動程式不盡理想。當然，我們也看到眾多令人驚喜的新功能，例如floating point render target之類等。目前距離NV40上市還有將近兩個月的時間，驅動程式的最佳化還有相當程度的改善空間，我們應該可以看到更驚人的表現。Nvidia是否將奪回技術上的優勢？

NV40的驚人效能實在是沒有可以挑剔的空間，很久沒看到「新一代產品效能超出前代兩倍」的場景了，不但完全擺脫了前代產品的不佳印象，在技術上亦有著重大的突破。既然NV40如此優秀，未來低價的NV41和NV43，就算僅有縮水的執行單元數目，也勢必有著不錯的市場競爭力。如果一切順利，Nvidia也許很有機會在NV40世代鹹魚翻身，從ATi手上奪回技術上的優勢。

另外，Nvidia在經歷NV30因製程技術問題導致上市延宕、失去市場先機的教訓，繼NV36後將NV40轉移給IBM生產。NV40雖然是一個電晶體數目極為驚人的怪物，但是運作時的溫度卻不高，明顯較前代產品為低，唯一的缺點是－Nvidia建議使用者需要「480W的電源供應器」。不過，考量到NV40電晶體數目和架構複雜度遠超過R420，卻可以早一步發表，而且R420也在規格上有所縮水，放棄了原先規畫的Shader 3.0和初期就發表高時脈版本的計畫，多少證明了Nvidia的眼光，也讓人見識到IBM強大的製程技術能力。

反過來說，我們也必須思考一個問題：大多數的使用者，真的需要付出如此之高的成本以換取如此強大的效能嗎？目前整合型繪圖晶片組已經成為兵家必爭之地，而英特爾已經逐漸在該市場掌握主導權。也許，這些具備大量先進技術的昂貴怪獸可以成為顯示晶片廠商的「精神象徵」和技術指標，但要如何將這些先進技術整合至晶片組，而且維持合理的價格，才是這些專業顯示晶片廠商最大的挑戰。文⊙劉人豪

熱門新聞