
Amazon
Amazon於本周舉行的年度技術大會re:Invent 2025上,發表了全新的AWS Trainium3晶片及Trainium3 UltraServers伺服器,前者為AWS的第四代AI專用晶片,後者則是採用Trainium3晶片的高效能AI伺服器。此外,Amazon亦揭露下一代的Trainium4將可整合GPU。
AWS Trainium是AWS專為AI訓練及推論所建置的AI晶片系列,旨在於提供高效能的同時降低成本。新版的Trainium3採用3奈米製程,搭載HBM3e高頻寬記憶體,記憶體頻寬接近前一代的4倍,晶片的互連採用自家的NeuronLink-v4,能源效率改善了40%。
而Trainium3 UltraServers每臺伺服器最多可安裝144顆Trainium3晶片,前一代的Trainium2 UltraServers最多只能安裝64顆Trainium2晶片,所以新款運算能力最多可達362 petaflops,高於Trainium2 UltraServers的83.2 petaflops。
此外,Trainium3 UltraServers採用AWS全新的NeuronSwitch-v1交換器,並透過NeuronLink-v4打造全互連架構,使伺服器內每顆Trainium3晶片之間都能以每秒2TB的高速互連頻寬進行資料交換。
這使得Trainium3 UltraServers最高可提供4.4倍的效能、3.9倍的記憶體頻寬,以及超過4倍的每瓦特效能,可替訓練及部署前沿級模型提供最高的價格效能,包括強化學習、混合專家模型、推理型架構與長脈絡模型等。
Amazon表示,包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh與Splash Music等客戶,都透過Trainium將訓練與推論成本降低最多50%。此外,專注於即時生成影片的以色列AI新創Decart使用Trainium3進行即時生成影片,顯示其推論速度比GPU快4倍,但成本只有GPU的一半,讓原本需要大量GPU的影片生成模型可大規模部署與即時互動。
不過,這是因為Decart的即時影片生成屬高吞吐量的推論工作負載,瓶頸在影格與資料的同時處理能力與記憶體頻寬,而非純運算力。Trainium在FP8推論、記憶體頻寬與並行最佳化上優於GPU,加上實例費率較低,使影片推論速度可達GPU的4倍、執行時間縮短,整體成本因此只有GPU的一半。
Amazon也宣布,下一代Trainium4將支援Nvidia的NVLink Fusion高速互連技術,讓Trainium4、AWS自行開發的Graviton CPU,以及AWS的高效能網路介面EFA,能與GPU在同一個MGX機架中協同運作,提供同時支援GPU與Trainium的高效能、具成本效益的機架級AI基礎設施。
熱門新聞
2025-12-24
2025-12-26
2025-12-29
2025-12-26
2025-12-26