【Nvidia顯示卡Quadro兩代GPU架構大比較】新一代GPU架構Turing為何比前代Pascal快6倍！

相較於Quadro前一代採用的16奈米製程Pascal架構GPU，Turing架構GPU晶片（圖右）則採用了更先進的12奈米製程，晶片面積從更大達到754平方公釐，內有186億個電晶體。（攝影／王宏仁）

在Nvidia今年3月GTC年度大會上，就曾展示過一段《星際大戰》光線追蹤特效示範短片Reflections，驚艷四座。這個短片利用即時光線追蹤計算產生的陰影和反射、折射效果格外真實。3月當時利用了配備4個人工智慧專用的Volta GPU，以及價值7萬美元的人工智慧工作站DGX Station來計算，但現在只需用單張新推出的光線追蹤GPU卡Quadro RTX 8000就能做到。

若以同樣專攻影像特效處理的GPU產品線Quadro來看，Nvidia執行長黃仁勳指出，全新Turing架構的效能，是前一代Quadro Pascal架構的6倍之多。

新一代Turing架構是全新的設計，除了GPU原有的SM（Streaming Multiprocessor）模組外，還包括了AI計算用的Tensor Core，以及光線追蹤用的RT Core，等於集結了Nvidia過去兩大類GPU的特性，再增加一個新的特殊核心。

新增光線追蹤專用核心RT Core，每秒能處理到百億道光線

Turing架構增加了一個全新的處理核心：專門處理光線追蹤的RT Core，用於計算光線在三角形間交互作用和不同邊界間的往返作用，最高每秒可處理百億（10 Giga）道光線的交互作用。

另外，Turing架構也內建了另一個人工智慧系列產品線所使用的Volta GPU架構上的AI計算專用核心Tensor Core，不過，核心數比Volta產品線內建的640 Tensor Core核心數略低，Turing架構目前最多只內建了576個（RTX 6000和RTX 8000兩款），最高可以提供到125 TFLOPS的半精度浮點運算，或是500 TOPS INT4計算（每秒可以處理500兆次整數計算）。

而Turning架構內建的SM模組也採取了新設計，除了浮點運算能力，還增加了可以平行執行的整數執行器，可以同時提供16 TFLOPS（Tera Floating-point Operations Per Second），再加上同樣效能的16 TIPS（Tera Integer Operations Per Second）運算效能。

攝影／王宏仁

為了支援RTX GPU，Nvidia在軟體層上提供了多項新工具和API，包括了光柵化（Rasterization）計算API、光線追蹤API、CUDA運算API、Tensor Core用的AI API等。

運算力達16 TFLOPS，雙卡串連記憶體可達96GB

相較於Quadro前一代採用的16奈米製程Pascal架構GPU，Turing架構GPU晶片則採用了更先進的12奈米製程，晶片面積擴大到754平方公釐，內有186億個電晶體，前Pascal架構GPU只有118億個電晶體。在一般運算能力上，Turing架構GPU可提供到16 TFLOPS計算力，也遠高於Pascal架構GPU的13 TFLOPS計算能力。記憶體支援也有很大的差異，Pascal架構的Quadro產品，可支援到24GB的GDDR5記憶體（時脈10GHz），但Turing架構GPU可支援到更高速的GDDR6記憶體（時脈14Ghz），單卡容量更是高達48GB。透過NVLink串連雙GPU卡，記憶體還可以再倍增，例如串接兩張RTX 8000，最大可提供96GB的全域照明計算（Global Illumination）。

用星際大戰短片的光影渲染來做比較的話，黃仁勳指出，採用Pascal架構的GPU需要308毫秒，但Turing架構GPU搭配即將推出的Deep Learning Anti-Aliasing （DLAA）技術，只需要45毫秒，等於Turing架構的光影渲染速度，可以達到Pascal架構的6倍。

為了支援RTX GPU，Nvidia在軟體層上提供了多項新工具和API，包括了光柵化（Rasterization）計算API、光線追蹤API、CUDA運算API、Tensor Core用的AI API等，另外OptiX、DXR、Vulkan也可以支援新的Turing架構光線追蹤加速功能，Nvidia還正式將材質定義語言MDL開源釋出，另外RTX也支援Pixar的開發語言USD（Universal Scene Description）。開發者只要呼叫API，就可以利用RTX GPU的光線追蹤核心來計算。

【Nvidia顯示卡Quadro兩代GPU架構大比較】新一代GPU架構Turing為何比前代Pascal快6倍！

新增光線追蹤專用核心RT Core，每秒能處理到百億道光線

運算力達16 TFLOPS，雙卡串連記憶體可達96GB

相關報導 GPU十年最大變革，即時光線追蹤成真

熱門新聞