Nvidia在今年頂級電腦圖學會議SIGGRAPH大會宣布擴充其開放推理模型家族,推出新一代Nemotron與Cosmos Reason模型,針對人工智慧代理與機器人應用,提升推理準確度、效率與多步驟任務處理能力。

新款Nemotron系列包括Nemotron Nano 2與Llama Nemotron Super 1.5,鎖定企業級人工智慧代理需求,針對於科學推理、數學計算、程式碼生成、工具呼叫與指令理解等任務。Nemotron Nano 2在同規模模型中,Token生成速度最高可達6倍,而Llama Nemotron Super 1.5則在推理準確度上居於領先,並提供4位元浮點數(NVFP4)版本,在Nvidia B200 GPU上的吞吐量可達H100的6倍,適合需要高效率推理的工作負載。

在兼顧性能與成本上,Nvidia於新一代模型中引入混合架構、緊湊量化(Compact Quantized)設計與可配置的思考預算機制,讓開發者能精確控制推理過程中Token的生成數量。此設計可在不額外增加時間或算力的前提下,實現最高約60%的推理成本降低,並確保人工智慧代理在既定資源限制內,維持深度推理能力與快速回應能力。

在實體人工智慧(Physical AI)領域,Nvidia推出的Cosmos Reason是一款開放且可自訂的70億參數推理視覺語言模型(Vision Language Model,VLM),具備物理概念理解、物體恆存與時空推理等能力。該模型可作為機器人視覺語言行動(Vision Language Action,VLA)模型的推理核心,支援決策制定、訓練資料的篩選與標註,以及視訊分析人工智慧代理的部署。在工廠、倉儲、零售、機場與交通監控等場景中,這些人工智慧代理能夠進行異常檢測與即時摘要,協助企業提升營運監控與反應速度。

Nvidia也同步釋出第一個開放視覺語言模型訓練資料集Llama Nemotron VLM dataset v1,包含300萬筆光學字元辨識、視覺問答與影像描述資料,提供Llama 3.1 Nemotron Nano VL 8B等視覺語言模型訓練與強化基礎。同時,Llama 3.2 NeMo Retriever嵌入模型在多項視覺文件檢索評測中表現突出,進一步提升檢索增強生成(RAG)型人工智慧代理的準確性與實用性。

熱門新聞

Advertisement