AWS 和 NVIDIA 宣布策略合作，為生成式人工智慧提供新的超級運算基礎架構、軟體和服務

在AWS re:Invent 大會上，Amazon（NASDAQ：AMZN）旗下的Amazon Web Services （AWS）和NVIDIA（NASDAQ：NVDA）今天宣布擴大策略合作，以提供最先進的技術基礎設施、軟體和服務，推動客戶的生成式人工智慧創新。

兩家公司將匯集NVIDIA和AWS的最佳技術，從配備下一代GPU、CPU和人工智慧軟體的NVIDIA最新多節點系統，到AWS Nitro System 先進的虛擬化和安全性、Elastic Fabric Adapter（EFA）互連和UltraCluster可擴展性，均非常適合訓練基礎模型和建立生成式人工智慧應用。

這次擴大合作是基於長期的夥伴關係，此夥伴關係為早期機器學習（ML）先驅者們提供了發展最新技術所需的運算效能，推動了生成式人工智慧時代。

作為擴大合作以增強所有產業生成式人工智慧的一部分：

AWS將成為首家將具有全新多節點NVLink™技術的NVIDIA® GH200 Grace Hopper超級晶片引入雲端的雲端服務供應商。NVIDIA GH200 NVL32多節點平台透過NVIDIA NVLink和NVSwitch™技術連接32個Grace Hopper超級晶片成為一個執行個體。該平台將在與Amazon 強大的網路（EFA）連接的Amazon Elastic Compute Cloud（Amazon EC2）執行個體上提供，並由高級虛擬化（AWS Nitro System）和超大規模叢集（Amazon EC2 UltraClusters）提供支持，使雙方客戶能夠擴展數以千計的GH200超級晶片。
NVIDIA 和 AWS 將合作在 AWS 上託管NVIDIA的人工智慧訓練即服務NVIDIA DGX™ Cloud。它將是第一個採用 GH200 NVL32 的 DGX Cloud，為開發人員提供單一執行個體中最大的共享記憶體。AWS 上的 DGX Cloud 將加速尖端的生成式人工智慧和參數超過1兆個的大型語言模型的訓練。
NVIDIA 和 AWS 正合作進行 Ceiba 計畫，打造世界上最快的GPU驅動人工智慧超級電腦，這是一個採用 GH200 NVL32 和 Amazon EFA 互連的大規模系統，由 AWS 為 NVIDIA 研發團隊託管。這台首創的超級電腦配備 16,384個 NVIDIA GH200 超級晶片，能夠處理的65 exaflops的人工智慧運算效能，NVIDIA 將使用它來推動下一波生成式人工智慧創新。
AWS 將推出另外三個新的Amazon EC2執行個體：由NVIDIA H200 Tensor Core GPU驅動的P5e 執行個體，適用於大規模和尖端的生成式人工智慧和高效能運算工作負載，以及分別由NVIDIA L4 GPU和NVIDIA L40S GPU驅動的G6 和G6e 執行個體，適用於人工智慧微調、推論、圖形和影片的工作負載等一系列廣泛應用。 G6e執行個體特別適合使用 NVIDIA Omniverse™開發 3D 工作流程、數位孿生和其他應用程式，NVIDIA Omniverse™ 是一個用於連接和建構由生成式人工智慧驅動的3D 應用程式平台。

AWS 執行長 Adam Selipsky 說：「從世界上第一個 GPU 雲端執行個體開始，AWS 和 NVIDIA 的合作已超過 13 年。今天，我們為圖形、遊戲、高效能運算、機器學習以及現在的生成式人工智慧等工作負載提供最廣泛的 NVIDIA GPU 解決方案。我們繼續與 NVIDIA 一起創新，將下一代 NVIDIA Grace Hopper 超級晶片與 AWS EFA 強大網路、EC2 UltraClusters 的超大規模叢集以及 Nitro 先進虛擬化功能相結合，使 AWS 成為運行 GPU 的最佳場所。」

NVIDIA 創辦人暨執行長黃仁勳表示：「生成式人工智慧正在改變雲端工作負載，並將加速運算作為多樣化內容生成的基礎。在向每位客戶提供經濟高效、最先進生成式人工智慧的共同使命驅動下，NVIDIA 和 AWS 在整個運算堆疊上開展合作，涵蓋人工智慧基礎設施、加速函示庫、基礎模型和生成式人工智慧服務。」

新的 Amazon EC2 執行個體結合了 NVIDIA 和 AWS 的最先進技術

AWS 將成為第一家提供具備多節點NVLink技術的 NVIDIA GH200 Grace Hopper超級晶片的雲端供應商。每個 GH200超級晶片在同一模組上結合了基於Arm的Grace CPU和一個NVIDIA Hopper™ 架構GPU。配備 GH200 NVL32 的單一 Amazon EC2執行個體可提供高達 20 TB 的共享記憶體，支援TB級的工作負載。

這些執行個體將利用AWS的第三代Elastic Fabric Adapter（EFA）互連，為每個超級晶片提供高達400 Gbps 的低延遲、高頻寬網路吞吐量，使客戶能夠在EC2 UltraCluster中擴展到數千個GH200 超級晶片。

配備 GH200 NVL32 的AWS執行個體將提供客戶可按需求取得超級電腦級的效能，這對於需要在複雜生成式人工智慧工作負載中跨多個節點分佈的大規模 AI/ML 工作負載至關重要，涵蓋了基礎模型、推薦系統和向量數據庫。

NVIDIA GH200 驅動的 EC2 執行個體將配備 4.5 TB HBM3e高頻寬記憶體，與目前一代 H100 驅動的 EC2 P5d 執行個體相比增加了 7.2 倍，將讓客戶運行更大的模型，同時提高訓練效能。此外，CPU至GPU記憶體互連的頻寬比PCIe高出7倍，從而實現晶片間通訊，擴展應用程式可用的總記憶體。

配備GH200 NVL32的AWS執行個體將成為AWS上首個採用液體冷卻功能的人工智慧基礎設施，以協助確保密集的伺服器機架能夠以最佳效能高效運作。

採用GH200 NVL32的EC2執行個體也將受益於AWS Nitro系統，它是下一代EC2執行個體的底層平台。Nitro系統將功能的I/O從主機CPU/GPU卸載到專用硬體，以提供更一致的效能，同時其增強的安全性可在處理過程中保護客戶程式碼和資料。

AWS 率先託管由 Grace Hopper 驅動的 NVIDIA DGX Cloud

AWS將與NVIDIA合作託管由GH200 NVL32 NVLink基礎設施驅動的NVIDIA DGX Cloud。NVIDIA DGX Cloud是一項人工智慧超級運算服務，可讓企業快速存取多節點超級運算，以訓練最複雜的大型語言模型和生成式人工智慧模型，並整合NVIDIA AI Enterprise軟體，並可直接聯繫人工智慧專家。

Ceiba 超級電腦大型計畫將增強NVIDIA 的人工智慧開發

AWS和NVIDIA 正在打造的Ceiba計畫超級電腦將與AWS服務整合，例如Amazon Virtual Private Cloud（VPC）加密網路和Amazon Elastic Block Store高效能區塊儲存，從而使NVIDIA能夠存取全面的AWS功能。

NVIDIA 將使用此超級電腦進行研發，以推進大型語言模型、圖形和模擬、數位生物學、機器人、自動駕駛汽車和Earth-2氣候預測等領域的人工智慧。

NVIDIA 和 AWS 增強生成式人工智慧、高效能運算、設計和模擬

為了支援最大的大型語言模型開發、訓練和推論，AWS P5e執行個體將採用NVIDIA最新的H200 GPU，該GPU提供141 GB的HBM3e高頻寬記憶體，比H100 GPU大1.8倍、快1.4倍。GPU記憶體的提升以及有AWS Nitro系統支援高達3,200 Gbps的EFA網路將使客戶能夠繼續在AWS上建置、訓練和部署其尖端模型。

為了為影片、人工智慧和圖形工作負載提供經濟高效、節能的解決方案，AWS 宣布推出配備NVIDIA L40S GPU的新Amazon EC2 G6e執行個體和由L4 GPU提供支援的G6執行個體。新產品可以幫助新創公司、企業和研究人員滿足他們的人工智慧和高擬真圖形需求。

G6e執行個體旨在處理複雜的工作負載，例如生成式人工智慧和數位孿生應用程式。使用NVIDIA Omniverse，可以使用來自AWS IoT TwinMaker、智慧聊天機器人、助理、搜尋和摘要等服務的即時資料來開發、情境化和增強逼真的 3D 模擬。 Amazon Robotics 和Amazon Fulfillment Center將能夠整合透過 NVIDIA Omniverse 和 AWS IoT TwinMaker建置的數位孿生，以最佳化倉庫設計和流程、訓練更聰明的機器人助理並改善對客戶的交付。

L40S GPU提供高達1.45 petaflops的FP8效能，並配備光線追蹤核心，可提供高達209 teraflops的光線追蹤效能。 G6 執行個體中配備的L4 GPU將為部署用於自然語言處理、語言翻譯、人工智慧影片和影像分析、語音辨識和個人化的人工智慧模型提供低成本、高能效的解決方案。L40S GPU還可以加速圖形工作負載，例如創建和渲染即時、電影品質的圖形和遊戲串流。以上這三個執行個體都將在明年推出。

AWS 上的 NVIDIA 軟體促進生成式人工智慧開發

此外，NVIDIA也宣佈在 AWS 上推出軟體來促進生成式人工智慧開發。NVIDIA NeMo™ Retriever微服務提供了新工具，可使用加速語意檢索來建立高度準確的聊天機器人和摘要工具。NVIDIA BioNeMo™ 現已在 Amazon SageMaker 上提供，並將在AWS上的NVIDIA DGX Cloud提供，使製藥公司能夠使用自己的資料簡化和加速模型訓練，從而加速藥物探索。

AWS 上的 NVIDIA 軟體正在協助 Amazon 為其服務和營運帶來新的創新。 AWS 正在使用 NVIDIA NeMo 框架來訓練精選的下一代 Amazon Titan 大型語言模型。 Amazon Robotics 已開始利用 NVIDIA Omniverse Isaac 建置數位孿生，以便在部署到現實世界之前，在虛擬環境中自動化、最佳化和規劃其自主倉庫。

關於NVIDIA（輝達）

NVIDIA（輝達）自 1993 年成立以來始終為加速運算領域的先驅。自 1999 年發明 GPU 起便成功促進 PC 電競市場的成長、重新定義電腦繪圖、引領現代人工智慧時代並推動打造工業數位化。NVIDIA 為一間全方位的運算公司，提供資料中心規模的產品以重塑產業樣貌。欲瞭解更多資訊，請瀏覽 https://nvidianews.nvidia.com/。

熱門新聞