相較於Quadro前一代採用的16奈米製程Pascal架構GPU,Turing架構GPU晶片(圖右)則採用了更先進的12奈米製程,晶片面積從更大達到754平方公釐,內有186億個電晶體。(攝影/王宏仁)

在Nvidia今年3月GTC年度大會上,就曾展示過一段《星際大戰》光線追蹤特效示範短片Reflections,驚艷四座。這個短片利用即時光線追蹤計算產生的陰影和反射、折射效果格外真實。3月當時利用了配備4個人工智慧專用的Volta GPU,以及價值7萬美元的人工智慧工作站DGX Station來計算,但現在只需用單張新推出的光線追蹤GPU卡Quadro RTX 8000就能做到。

若以同樣專攻影像特效處理的GPU產品線Quadro來看,Nvidia執行長黃仁勳指出,全新Turing架構的效能,是前一代Quadro Pascal架構的6倍之多。

新一代Turing架構是全新的設計,除了GPU原有的SM(Streaming Multiprocessor)模組外,還包括了AI計算用的Tensor Core,以及光線追蹤用的RT Core,等於集結了Nvidia過去兩大類GPU的特性,再增加一個新的特殊核心。

新增光線追蹤專用核心RT Core,每秒能處理到百億道光線

Turing架構增加了一個全新的處理核心:專門處理光線追蹤的RT Core,用於計算光線在三角形間交互作用和不同邊界間的往返作用,最高每秒可處理百億(10 Giga)道光線的交互作用。

另外,Turing架構也內建了另一個人工智慧系列產品線所使用的Volta GPU架構上的AI計算專用核心Tensor Core,不過,核心數比Volta產品線內建的640 Tensor Core核心數略低,Turing架構目前最多只內建了576個(RTX 6000和RTX 8000兩款),最高可以提供到125 TFLOPS的半精度浮點運算,或是500 TOPS INT4計算(每秒可以處理500兆次整數計算)。

而Turning架構內建的SM模組也採取了新設計,除了浮點運算能力,還增加了可以平行執行的整數執行器,可以同時提供16 TFLOPS(Tera Floating-point Operations Per Second),再加上同樣效能的16 TIPS(Tera Integer Operations Per Second)運算效能。

攝影/王宏仁

為了支援RTX GPU,Nvidia在軟體層上提供了多項新工具和API,包括了光柵化(Rasterization)計算API、光線追蹤API、CUDA運算API、Tensor Core用的AI API等。

運算力達16 TFLOPS,雙卡串連記憶體可達96GB

相較於Quadro前一代採用的16奈米製程Pascal架構GPU,Turing架構GPU晶片則採用了更先進的12奈米製程,晶片面積擴大到754平方公釐,內有186億個電晶體,前Pascal架構GPU只有118億個電晶體。在一般運算能力上,Turing架構GPU可提供到16 TFLOPS計算力,也遠高於Pascal架構GPU的13 TFLOPS計算能力。記憶體支援也有很大的差異,Pascal架構的Quadro產品,可支援到24GB的GDDR5記憶體(時脈10GHz),但Turing架構GPU可支援到更高速的GDDR6記憶體(時脈14Ghz),單卡容量更是高達48GB。透過NVLink串連雙GPU卡,記憶體還可以再倍增,例如串接兩張RTX 8000,最大可提供96GB的全域照明計算(Global Illumination) 。

用星際大戰短片的光影渲染來做比較的話,黃仁勳指出,採用Pascal架構的GPU需要308毫秒,但Turing架構GPU搭配即將推出的Deep Learning Anti-Aliasing (DLAA)技術,只需要45毫秒,等於Turing架構的光影渲染速度,可以達到Pascal架構的6倍。

為了支援RTX GPU,Nvidia在軟體層上提供了多項新工具和API,包括了光柵化(Rasterization)計算API、光線追蹤API、CUDA運算API、Tensor Core用的AI API等,另外OptiX、DXR、Vulkan也可以支援新的Turing架構光線追蹤加速功能,Nvidia還正式將材質定義語言MDL開源釋出,另外RTX也支援Pixar的開發語言USD(Universal Scene Description)。開發者只要呼叫API,就可以利用RTX GPU的光線追蹤核心來計算。

 相關報導  GPU十年最大變革,即時光線追蹤成真

熱門新聞

Advertisement