英特爾CEO:未來伺服器晶片設計得有新變革，以滿足LLM模型等新的工作負載的需求

圖片來源:

攝影/余至浩

【美國聖荷西現場報導】生成式AI在今年掀起一股新的AI風潮，不少大型雲端業者、科技公司都在今年大規模部署GPU伺服器，用來訓練自己的LLM模型，然而，現今的晶片設計主要是針對雲端運算需求而非專門為LLM模型訓練而設計，這導致LLM模型的訓練成本非常龐大。以OpenAI的GPT-3模型為例，該模型擁有1,750億個參數，需要龐大算力，訓練成本高達165萬美元。使用GPT-3開發的ChatGPT在推論方面的成本更高，每月燒掉4千萬美元。這不僅大大增加了企業成本，對地球資源、環境永續性也可能產生影響。

晶片封裝技術是阻礙AI發展的一大瓶頸

身為伺服器處理器龍頭，英特爾正試圖展開伺服器硬體、軟體架構技術的革新，來滿足生成式AI等新的工作負載的需求，目標是要確保未來的處理器，可以應對從雲端LLM模型訓練，到邊緣端的LLM模型推論的各種需求。

在今年英特爾創新日會後一場記者會上，英特爾執行長Pat Gelsinger明白表示，未來伺服器晶片發展需要新變革，整合更多先進技術，包括先進電晶體技術、先進封裝技術、先進通訊及先進記憶體技術等。尤其，他特別點出，現今的晶片封裝技術是阻礙AI發展的一大瓶頸，得加以解決。

經過一段時間的研發，英特爾近日發表可用於下一代先進封裝的玻璃基板，與傳統的基板相比，這種新型基板可以大幅提升半導體封裝的電晶體數量，而且具備有省電和散熱特性，可用於封裝生成式AI晶片。這項技術最快3年後開始量產。

又以先進記憶體技術為例，英特爾開始支援MCR DIMM規格的記憶體，如明年將推出的Granite Rapids處理器，就已導入這項技術，藉以增加伺服器平臺的記憶體頻寬，以滿足資料密集型的的工作負載，如LLM模型參數訓練所需的記憶體。在silicon架構上，英特爾引進3D silicon設計，以提供更高的silicon效能，來滿足LLM模型的運算需求。

近年來，許多企業應用程式中都開始結合AI功能，這也使處理器中提供AI支援能力變得越來越重要，Pat Gelsinger表示，這是英特爾決定要建構AI產品線的原因，而AI訓練加速器Gaudi和Xeon可擴展處理器是英特爾的兩大人工智慧產品。

為了要支援生成式AI應用，英特爾在第4代Xeon Scalable處理器中開始內建了AMX進階矩陣延伸功能，使得它能夠針對在CPU上執行的AI算法進行加速，尤其在處理大型語言模型等工作負載時，搭配Xeon Max系列可提供高達20倍的加速效能。

英特爾明年還將推出一款代號為Granite Rapids的新一代伺服器處理器，主打高效能，在先進製程技術、核心數和記憶體頻寬方面，相較於第4代Xeon處理器有顯著提升，此外，它還提供了增強的AMX功能，支援半精度（FP16）資料類型的AI訓練，能進一步提升AI處理效能。

AI模型通常分為訓練和推論兩個階段，Pat Gelsinger指出，目前企業更多採用模型推論，若希望在本地端對基礎模型進行再訓練，並執行大量推理，他說，這種情況就很適合採用Xeon處理器來執行推論。

除了用於生成式AI推論之外，針對AI模型訓練，英特爾則是推出了AI訓練加速器Gaudi，目前已發展到了第二代產品，搭載更多張量處理器核心與HBM。根據測試結果，在執行多模態的BridgeTower模型的性能表現上，Gaudi2勝過去年推出的Nvidia H100 GPU，提升高達1.4倍。此外，下一代Gaudi3很快將在明年推出，甚至還有一款支援雙精度浮點運算（FP64）的Falcon Shores GPU未來將問世。

英特爾要成為先進AI產品的代工廠

在軟體工具方面，英特爾最新加強了對生成式AI應用的支援。例如，在新釋出的OpenVINO 2023.1版工具套件中，增加了對包括臉書Meta的Llama 2等生成式AI模型的最佳化功能，使開發人員能夠透過基礎模型優化，來支援跨不同作業系統和雲端整合應用環境。

Pat Gelsinger表示，英特爾在晶圓代工業務上十分關注AI領域，包括生成式AI，不僅和內部團隊合作，還與外部的代工客戶一起共同推動。他表示，這麼做的目的，就是希望以後要讓每個人一提到英特爾代工就會聯想到AI晶片，「要將英特爾變成先進AI產品的代工廠」他說。

熱門新聞