Intel找來臉書與百度來幫Nervana神經網路處理器站臺，預計明年投入商用生產

Intel副總裁暨AI產品部總經理Naveen Rao手拿NNP-T晶片，還找來百度站臺，預計明年投入NNP的商用生產。

圖片來源:

攝影/翁芊儒

Intel在2016年併購了AI新創Nervana後，就開始投入神經網絡處理器（NNP）的研發，直到去年5月終於正式發表了首款NNP，今年8月也更近一步揭露了訓練用與推論用晶片的相關規格，預計將在明年商用上市。而Intel在本月的AI Summit 2019活動上，也展出NNP的實際運算效能，並找來合作夥伴臉書與百度站臺，分享目前的使用情形。

Nervana NNP是用於雲端資料中心的ASIC晶片，又分為訓練晶片（NNP-T）與推論晶片（NNP-I）。

左圖為NNP-T、右圖為NNP-I。

NNP-T的軟硬體架構

NNP-T代號Spring Crest，採用台積電16奈米製程（CLN16FF+）及CoWoS（Chip on Wafer on Substrate）封裝技術所製造，整體零件包含270億個矽晶體、多達24個Tensor核心處理叢集（Tensor Process Cluster，TPC）、4個8GB的高頻寬記憶體（High Bandwith Memory，HBM）、60MB的片上分散式記憶體（on-chip distributed memory），並以2.5D異質整合技術來封裝。

從右邊架構圖可見，NNP-T架構主要有24個Tensor處理叢集，4個高頻寬記憶體，共有16個雙向頻寬傳輸連結（Inter-Chip Links，ICL）。

在效能表現上，TPC能在1.1GHz的頻率下達到119 TOPS，功耗則取決於空氣冷卻的情況，約為150到250瓦。且為了降低訓練模型的體積，來減少儲存空間與頻寬，TPC支援了bfloat16（BF16）浮點數格式，Intel宣稱，經過BF16最佳化之後，在幾乎不損失模型精度的情況下，可將深度學習模型壓縮至原先的一半，但仍達到與單精度浮點數格式（FP32）相同的效能表現。

而且，除了NNP-T，Intel也要在下一代Xeon處理器家族Cooper Lake中，以Deep Learning Boost為基礎來內建BF16指令集，讓CPU處理器也能執行深度學習模型的訓練工作。Cooper Lake處理器也預計在明年上半年上市。今年4月先發表的第二代處理器家族Cascade Lake，其內建的DL Boost只能用於加速模型的推論工作。

Intel在下一代Xeon處理器家族Cooper Lake中內建BF16指令集，上圖為運用FP32與BF16兩種浮點數格式，來訓練Resnet-50的模型準確率比較：兩者不相上下，但BF16能降低運算資源的消耗。

除了硬體，Intel也釋出NNP-T搭配的軟體堆疊工具，上層支援了TensorFlow、PyTorch、PaddlePaddle等深度學習框架，以及Intel自家開源的深度學習編譯器nGraph，底層軟體則包括深度學習運算與通訊程式集MKL（Math Kernel Library），也基於Tensor核心釋出彈性、可編程的指令集架構（Instruction Set Architecture，ISA），讓NNP-T具有低程度的可程式化能力（Low-level programmability）。

480張NNP-T互連的關鍵：雙向頻寬傳輸的晶片內連結（ICL）

Intel在AI Summit中，展示了由480張NNP-T加速卡集合而成的超級電腦，這臺超級電腦由10個機架所串聯，一排機架有6個機箱，一個機箱又有8張加速卡。而現場也展示了運用32張NNP-T加速卡，來執行影像辨識模型ResNet-50的訓練成效，大約在70個epochs中就能達到了95％正確率。

這臺超級電腦由10個機架所串聯，一排機架有6個機箱。

一個機箱有8張加速卡。

Intel表示，之所以能擴充至480個節點互連來執行高效能運算，是因為每個NNP-T都具備16組112Gbps、共3.58Tbps的雙向頻寬傳輸的晶片內連結（Inter-Chip Links，ICL），且實現了完全可編程的路由器，讓核心運算單元能直接將數據傳輸到連結中，而不佔用晶片內HBM的儲存資源，來達到更低的延遲與更高的效能，最多可以擴充到1024個節點，也能用Kubernetes來調度運算資源。

此外，NNP-T也有PCIe及OCP開放加速模組（Open Accelerator Module，OAM）兩種主機板規格，適用的解決方案從小型伺服器、多機箱式的結構（inter-chassis fabric）到大型機櫃（POD）的硬體架構等，能根據需求來部署建置。

百度也分享了與Intel在軟硬體方面的合作。硬體方面，百度作為早期採用者，已經部署了NNP-T作為AI超級電腦X-Man 4.0的硬體建設，來執行部分運算工作，其AI研究員Kenneth Church也表示，採用了NNP-T的X-Man 4.0，將成為世界上第一個開源的加速基礎建設（Open Accelerator Infrastructure，OAI）架構，且百度也計劃將擴大規模部署更多NNP-T到更多基礎建設中。

在軟體部分，NNP-T已經支援了中國已經廣泛使用的深度學習框架Paddle Paddle，根據Kenneth Church指出，該框架的採用人數已經超過150萬開發者，且對於NLP的模型開發尤為重要。

NNP-I的軟硬體架構

NNP-I的代號則是Spring Hill，是以Intel 10nm製程的Ice Lake處理器為基礎，並以12個推論運算引擎（Inference Compute Engine，ICE），搭配兩個Sunny Cove架構的x86內核，來加速推論運算。Intel在先前就曾宣稱，NNP-I的推論效能最高可達4.8TOPs/W，功耗則在10W到50W之間，且具有高度程式化能力，也支援多種深度學習框架。

NNP-I以12個推論運算引擎搭配兩個Sunny Cove架構的x86內核，做為主要運算架構。

此次Intel AI產品部副總裁Gadi Singer在AI Summit會後受訪時指出，NNP-I的特色有三，一是低功耗、二是可支援多元的深度學習應用、三是支援多種軟體。他首先提到，NNP-I的低功耗使其能彈性適用於不同規模的解決方案，比如高密度的硬體部署，而Intel為了減少耗能，除了在其中加入了全整合式電壓調節模組（FIVR）來進行功率管理，也設計了75MB的片上（on-die）SRAM，來減少數據在CPU與記憶體間的移動，「因為乘法與加法運算佔耗能的一小部分而已，降低數據搬運才能達到更低功耗。」

NNP-I另一個特色是能支援多元深度學習的應用，因為Sunny Cove架構的核心具有AVX512指令集，其中的向量神經網絡指令集（Vector Neural Network Instruction，VNNI），使其能適用於多種深度學習的工作負載。Gadi Singer表示，NNP-I必須能快速支援各類深度學習演算法，尤其AI演算法的開發到部署可能不到一年，比如去年開源的NLP模型BERT，幾乎在一年之內就已經普及，不同於其他領域可能需要5-7年才能有效運用新方法去解決問題。

NNP-I搭配的軟體堆疊，支援的深度學習框架包括Tensorflow、PyTorch、Caffe2、開放神經網路交換格式ONNX，以及Intel自家的開源軟體工具集OpenVINO、深度學習編譯器nGraph等，且與NNP-T相同，均具有低程度的可程式化能力。

此外，NNP-I也提供兩種加速卡格式，分別是M.2卡NNP I-1100及PCIe卡NNP I-1300。M.2卡的最大功耗（Thermal Design Power，TDP）是12瓦，效能可達到50 TOPS，而兩張PCIe卡的最大功耗是75瓦，效能則可達170 TOPS。

視NVIDIA T4為競爭對手，NNP-I要搶進推論運算市場

AI Summit的活動上，Intel展示了NNP-I與Nvidia T4的效能比較， Intel宣稱，在硬體架構上，Nvidia T4在4U機櫃中只能放置20張卡，而NNP-I可在1U機櫃中放置多達32張卡；若以效能表現來看，在兩處理器均負載影像辨識Nesnet-50工作的情況下，NNP-I能以不到Nvidia T4 2倍的加速卡數量，展現出Nvidia T4 3.68倍效能。

32張NNP-I實際運作情形。

NNP-I加速卡。

而且，社交媒體巨頭臉書也開始在用NNP-I了，雖然臉書並無正面指出在NNP-I上執行了哪些推論工作，但也表示，NNP-I的軟體堆疊確實協助臉書最佳化了許多模型效能，包括推薦系統、電腦視覺、翻譯等推論工作。臉書說明，無論是用戶上傳照片自動tag朋友的功能、一天超過5億6千次的語言翻譯、貼文推薦系統、或是自動移除假帳號等，都需要應用大量AI。

NNP-T的軟硬體架構

480張NNP-T互連的關鍵：雙向頻寬傳輸的晶片內連結（ICL）

NNP-I的軟硬體架構

視NVIDIA T4為競爭對手，NNP-I要搶進推論運算市場

熱門新聞