Amazon發表Trainium3晶片與Trainium3 UltraServers

圖片來源:

Amazon

Amazon於本周舉行的年度技術大會re:Invent 2025上，發表了全新的AWS Trainium3晶片及Trainium3 UltraServers伺服器，前者為AWS的第四代AI專用晶片，後者則是採用Trainium3晶片的高效能AI伺服器。此外，Amazon亦揭露下一代的Trainium4將可整合GPU。

AWS Trainium是AWS專為AI訓練及推論所建置的AI晶片系列，旨在於提供高效能的同時降低成本。新版的Trainium3採用3奈米製程，搭載HBM3e高頻寬記憶體，記憶體頻寬接近前一代的4倍，晶片的互連採用自家的NeuronLink-v4，能源效率改善了40%。

而Trainium3 UltraServers每臺伺服器最多可安裝144顆Trainium3晶片，前一代的Trainium2 UltraServers最多只能安裝64顆Trainium2晶片，所以新款運算能力最多可達362 petaflops，高於Trainium2 UltraServers的83.2 petaflops。

此外，Trainium3 UltraServers採用AWS全新的NeuronSwitch-v1交換器，並透過NeuronLink-v4打造全互連架構，使伺服器內每顆Trainium3晶片之間都能以每秒2TB的高速互連頻寬進行資料交換。

這使得Trainium3 UltraServers最高可提供4.4倍的效能、3.9倍的記憶體頻寬，以及超過4倍的每瓦特效能，可替訓練及部署前沿級模型提供最高的價格效能，包括強化學習、混合專家模型、推理型架構與長脈絡模型等。

Amazon表示，包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh與Splash Music等客戶，都透過Trainium將訓練與推論成本降低最多50%。此外，專注於即時生成影片的以色列AI新創Decart使用Trainium3進行即時生成影片，顯示其推論速度比GPU快4倍，但成本只有GPU的一半，讓原本需要大量GPU的影片生成模型可大規模部署與即時互動。

不過，這是因為Decart的即時影片生成屬高吞吐量的推論工作負載，瓶頸在影格與資料的同時處理能力與記憶體頻寬，而非純運算力。Trainium在FP8推論、記憶體頻寬與並行最佳化上優於GPU，加上實例費率較低，使影片推論速度可達GPU的4倍、執行時間縮短，整體成本因此只有GPU的一半。

Amazon也宣布，下一代Trainium4將支援Nvidia的NVLink Fusion高速互連技術，讓Trainium4、AWS自行開發的Graviton CPU，以及AWS的高效能網路介面EFA，能與GPU在同一個MGX機架中協同運作，提供同時支援GPU與Trainium的高效能、具成本效益的機架級AI基礎設施。

熱門新聞