Nvidia展示Kiosk點餐機上實現多AI技術應用與更聰明虛擬助理化身，還布局3大Edge AI技術搶攻機器人AI應用

早在今年4月GTC的Keynote活動上，Nvidia執行長黃仁勳曾有幾秒鐘替換為逼真的虛擬分身上陣，所以外界十分好奇，這次會不會一樣有虛擬分身出場，在會後一場線上亞太上記者會上，黃仁勳也給出了答案，他說，這場Keynote中出現的場景，都是虛擬的造型，但不包括他自己。

圖片來源:

Nvidia

試想一下，你到了一家美式速食店，只要對著Kiosk點餐機臺說出你要的餐點，不用輸入就能自動完成點餐到結帳，因為Kiosk上有個AI虛擬助理，不只聽得懂你要點的起司漢堡是什麼口味，還會根據不同客人來推薦套餐或適合加哪些配料，甚至顧客要查詢食物的蛋白質含量，或想要素食漢堡也難不倒它。它還能化身Q版機器人，現身在螢幕中，與人面對面交流及互動，並依據交談內容做出生動的表情和手勢。

這是在今年秋季GTC大會上，Nvidia展示Kiosk機上實現多AI技術應用與更聰明虛擬化身，Nvidia研發團隊運用電腦視覺、深度互動式對話AI技術Riva以及使用Omniverse平臺來模擬虛擬化身的臉部表情、手勢、身體動作，來提供一種即時對話式機器人應用。不只讓AI有了自己的化身，走進kiosk點餐機，這樣的即時對話式機器人，也能在汽車影音娛樂系統做應用，或是當起跨國線上視訊會議上的主持人，來同步提供多國語言的即時內容翻譯。這樣AI場景應用，不再是出現在少數企業應用，甚至開始進到一般人的生活場景。

除了AI有自己的虛擬化身，Nvidia執行長黃仁勳自己也有，早在今年4月GTC的Keynote活動上，黃仁勳曾有幾秒鐘替換為逼真的虛擬分身上陣，所以外界十分好奇，這次會不會一樣有虛擬分身出場，在會後一場線上亞太上記者會上，黃仁勳也給出了答案，他說，這場Keynote中出現的場景，都是虛擬的造型，但不包括他自己。

雖然沒有以虛擬黃仁勳登場，在整場主題演講中，他還介紹了另一個迷你版分身，還是一個Q版卡通造型的虛擬化身，能夠代替自己與真人交談、回答各種艱深提問，像是表達對於氣候變遷看法等等，而且舉手投足都將本尊模仿唯妙唯肖，甚至連講話語氣也十分相似。這項技術同樣運用到了多種AI語音、自然語言理解技術、GPU運算和Omniverse平臺加以實現。

在整個發布會中，黃仁勳主要圍繞7大主軸，涵蓋量子運算、AI推論平臺、speech AI、LLM（ large language model）、Omniverse平臺、機器人以及高速網路平臺Quantum-2。

首先，在加速運算上，他提到，加速運算一直都是在處理full stack運算的問題，需要考慮到不同應用、不同產業，而且跨雲端到邊緣，不論是GPU、CPU和DPU ，也不分DGX、HGX、EGX、RTX、AGX等系統，都需要有各種優化的SDK，來提供這些行業或產業做加速運算使用。他說，目前有3百萬名開發者使用Nvidia提供的150個加速運算SDK用於繪圖、AI和機器人。

在這次GTC上，Nvidia更釋出65個新的或更新的SDK，提供各產業使用，像是物流倉儲搬運機器人用的ReOpt，可優化機器人移動與行駛路線，也有為機器學習慣用的程式語言Python ，推出了cuNumeric來加速其擴充函式庫NumPy，支援更大規模的矩陣運算。還有針對量子運算提供的cuQuantum，可供研究人員進行科學研究。

兩大機器學習開發新框架，加速建立物理ML與超大LLM語言模型

在AI開發框架方面，該公司釋出兩個重要的框架，一個是Modulus機器學習開發框架它是一個專用於physics-ML models的開發框架，可以讓建立和訓練的ML模型，擁有物理知識和學習能力，以解決物理層面問題。甚至他表示，因為有了物理知識的機器學習，加上GPU加速運算、資料中心等級運算規模，將可以在藥物研發和氣候變遷的變革上，帶來百萬倍發展的加速。

另一個開發框架則是和超大AI模型訓練有關，Nvidia發布一個NeMo Megatron深度學習框架，專用於LLM模型（ large language model）訓練使用，因為這樣的框架，還推出一個預設LLM模型NeMo Megatron 530B，讓企業或開發者能使用它訓練出自己的LLM語言模型做應用。該語言模型預設使用多達5,300億個參數，比OpenAI的GPT-3語言模型還要多3倍，並且支援多GPU、多節點分散式架構。

除了提供訓練用的LLM模型，Nvidia還推出一臺 Triton推理伺服器，可供LLM模型推論使用。由於LLM模型是AI理解語言、語意、上下文脈絡很重要的關鍵，黃仁勳也看好LLM模型的發展，將成為未來主流HPC應用。

在企業AI軟體方面，Nvidia原本就有建立相當完整的生態系，涵蓋雲端、本地、邊緣和嵌入式裝置，這次更進一步與資料中心代管服務商Equnix合作，來提供一種企業預安裝和整合服務，稱為LaunchPad，除了可以將這些AI軟體部署在企業資料中心內，也能選擇部署於Equnix機房中，不過目前亞洲只有東京和新加坡能選用。

借助新AI語音引擎，只用30分鐘訓練就能產生新合成語音

Nvidia在同一天推出互動式對話AI引擎Riva，強調只要30分鐘的語音資料訓練，就能產生語音合成模型建立新的AI語音系統，來做為語音助理使用，最多可以支援7種語言，包括中文、英文、日文、西班牙文、德文、法文、俄文。除於語音，Riva也能提供翻譯、即時字幕顯示功能，也能進行問題回答、歸納和理解說話者意圖等。

由於企業與工業邊緣是下一波AI主戰場，黃仁勳特別以機器人應用為例，強調該公司推出多個邊緣端專用的機器人應用框架，包括電腦視覺平臺Metropolis、新一代醫療儀器設備平臺Clara Holoscan、Isaac機器人軟體開發套件以及Drive車用平臺等。

Nvidia力推新的UCF統一運算框架，加速推動機器人產業AI應用

值得一提的是，黃仁勳在會中也揭露出該公司在Edge AI的布局，主要有3大關鍵技術，分別是統一運算框架（ Unified Compute Framework,UCF）、虛擬化身的Maxine機器人平臺、虛擬世界模擬引擎Omniverse。

UCF是一種協助建立機器人AI應用的通用運算框架，企業能夠使用它在機器人上來實現各種AI應用所需的運算，而且利用UCF開發出來的AI應用，可以部署到各種機器人應用環境，不論是資料中心，或是倉庫、工廠邊緣使用的嵌入式機器人系統或裝置上。目前Nvidia在一些機器人新產品上也開始使用UCF框架做為運算框架，例如Clara Holoscan就是一個使用UCF打造的一個軟體定義式醫療儀器設備平臺，除了可以部署在資料中心，也能夠在邊緣端來使用。另一個虛擬化身的Maxine機器人平臺，同樣採用UCF框架搭建，而且可以結合Omniverse搭建的虛擬世界來做應用。黃仁勳表示，未來會有更多技術整合到Maxine中做運用，包括電腦視覺、神經網路繪圖、動畫模擬、AI語音以及對話管理、NLU和推薦等。

Nvidia展示了Maxine在智慧零售場景應用，像是建立一個會說話的Kiosk機臺語音助理，不只提供顧客進行語音點餐，還會介紹餐點，回答客人提問，甚至根據每位客人特徵來推薦適合的餐點。該應用結合電腦視覺、互動式對話AI技術Riva以及使用omniverse來模擬的虛擬化身的臉部表情、手勢、身體動作、來提供一種即時對話式機器人應用。

在Omniverse平臺方面，除了在數位分身應用有更多企業採用之外，該公司推出Omniverse Avatar虛擬化身模擬平臺，整合電腦視覺、語音AI、自然語言理解（基於Megatron框架）等技術，讓企業可以在模擬虛擬世界中打造出更聰明的AI虛擬化身，來帶來各種對話式的應用或服務。例如Q版的虛擬黃仁勳就是其中一個應用例子。新推出的Omniverse Replicator模擬框架，則是能產生模擬真實世界所需的物理數據，例如道路表面等，來累積道路環境數據，以加速如自駕車 AI 模型訓練。

最後，他提到，未來將打造一個可以模擬和預測氣候變遷的地球數位分身，並將搭載於新一代超級電腦Earth Two （E-2）上，同時會使用到modulus機器學習模型來產生出符合真實地球物理樣貌，用來加速建立數位分身的地球。

熱門新聞