vSphere 7.0發布更新，提升Nvidia GPU與AMD加密支援

去年3月，VMware宣布推出伺服器虛擬化平臺vSphere的7.0版，4月正式推出，時隔半年，他們在全球用戶大會VMworld大會前夕，發表7.0 Update 1版，10月正式推出。而到了今年3月9日，vSphere 7.0後繼更新版本Update 2也登場，已經開放下載。

強化Nvidia GPU多執行個體技術，以及GPU直接I/O技術的支援

vSphere這一版最大賣點，是更完整支援Nvidia去年發表的Ampere架構GPU，也就是A100，而能執行高階的機器學習訓練、推論工作負載。除此之外，vSphere 7.0 Update 2也支援多執行個體GPU（Multi-Instance GPU，MIG）技術，改善了GPU共享與使用率，能讓更多使用者共用GPU運算週期；此外，對於搭配Nvidia vGPU的虛擬機器，如今的vSphere也能對其執行線上遷移（vMotion）的功能，讓這類型虛擬機器在不中斷執行的狀態下，可以搬移到另一臺ESXi主機上繼續執行；而基於vMotion而成的分散式資源排程（DRS），也跟著受惠，因此，企業現在也能將那些搭配vGPU的虛擬機器，自動放置到運算資源較充裕的主機上，避免產生效能瓶頸。

對於內建MIG的Nvidia A100，在vSphere 7 Update 2環境之下的虛擬機器，究竟提供了哪些具體支援？VMware表示，目前可提供兩種vGPU模式，一是傳統的分時切割處理（time-sliced），運算工作是序列進行的，一是由MIG支撐的作法，也就是直通式I/O（DirectPath I/O），運作工作是平行處理的，而這兩種vGPU模式都支援vMotion與DRS，適用於這類將虛擬機器線上遷移至其他伺服器的配置。

以傳統的分時切割處理模式而言，在虛擬機器共享GPU時，並不會提供嚴格、硬體層級的隔離，而是進行工作排程，將運算負擔配置到GPU的串流複合處理器（streaming multiprocessors，SMs），而且分配的方式是用戶可存取的演算法，像是公平共享（fair-share）、平等共享（equal share）、竭盡全力（best effort），此時，GPU的所有核心都會被使用到，而同樣地，所有硬體的路徑，從快取到cross-bar、GPU顯示緩衝記憶體之間，都會被用到。

在這種模式下，企業可以在vSphere Client使用Nvdia Grid vGPU Profile的設定組態項目（依照顯示緩衝記憶體容量而區分多種選項，例如，grid_a100-5C，「5C」是將5GB顯示緩衝記憶體配置給虛擬機器）。

至於vSphere 7.0 Update 2新支援的MIG模式，能針對串流複合處理器、顯示緩衝記憶體，以及多種硬體路徑，提供專屬的硬體配置。這些硬體項目與相關的硬體路徑，都可以在虛擬機器的層級，做到嚴格隔離。一旦在伺服器端啟用所安裝的Nvidia A100 GPU的MIG，隨後系統管理者即可在vSphere管理介面選擇MIG支援的vGPU Profile，以A100而言，可切割成7個運算單位（每個運算單位搭配14個SM）。因此，如果選擇grid-a100-7-40c這個組態，是指在單一虛擬機器可以使用A100的7個SM，以及40GB的GPU記憶體，當然，如此一來，這臺虛擬機器就完全佔用了A100 GPU，而無法分享給其他虛擬機器。

而在MIG模式之下的GPU分割與共享狀態下，對於機器學習推論這類不會完全佔用GPU運算容量的工作負載，以及反應低延遲、錯誤隔離等使用場景，也特別有助益。根據Nvidia的測試，若同樣面對自然語言的推論，若採用裸機A100 GPU的系統相比，基於A100 GPU所虛擬的vGPU並啟用MIG的系統，在效能表現上已經相當接近。

對於GPU裝置對GPU裝置之間的通訊，vSphere 7.0 Update 2現在可運用Nvidia既有的I/O直通技術GPUDirect，而能獲得更好的存取效能，因為VMware現在能在ESXi核心的PCIe匯流排層級，啟用位址轉換服務（Address Translation Services，ATS），以及存取控制服務（Access Control Services，ACS）。

關於ATS的應用，VMware表示，這是經由PCIe的作法來命名的位址轉換服務，可改善GPU與伺服器本機網路卡的之間的通訊。有了ATS，能在伺服器本機儲存每個PCIe裝置的虛擬與實體對應位址，可加速伺服器內部裝置之間的點對點（peer-to-peer）通訊，因此，也能因為不需經由中央處理器與主記憶體的關係，提升GPU傳送到網路卡之間的資料傳輸率，網路流量隨後也能傳送到另一臺伺服器的GPU，並且在遠端伺服器裡面依循同樣的ATS配置來加速傳輸。而基於這樣的功能，若企業在多臺伺服器使用GPUDirect RDMA技術，將可獲得更大的效能提升。

ATS能讓裝置的定址以更有效率的方式來進行，當中將會略過IOMMU處理，以便運用點對點的通訊模式，促使各個PCIe裝置在同樣的PCIe Bridge裡面進行溝通，可大大提升分散式應用系統的效能。根據Nvidia的測試，以Nvidia Mellanox RDMA相關技術結合vSphere vGPU的機制，若用於深度學習的工作負載橫向擴展到多個節點處理架構時，並搭配支援RDMA與ATS功能的Nvidia AI Enterprise軟體套件，即可得到近乎裸機的效能──因為在網路卡與GPU之間能更直接存取，獲得更大的存取頻寬，而不會受限於PCIe匯流排本身的速度。在這樣的環境之下，也代表資料科學家每天能反覆執行更多新的資料處理，以及重新訓練的作業。

值得注意的是，ATS的啟用，在實作上，也是由系統管理者在伺服器層級來進行操作，而且，GPU與網路卡都必須配置到同一臺虛擬機器，GPU的存取須設為穿透模式（Passthrough），而網路卡須內建SR-IOV這種可穿透至VM層級的虛擬功能。

關於超高速網路介面的搭配，vSphere 7.0 Update 2也支援Nvidia旗下Mellanox的網路卡，像是ConnectX-6 EN系列（MT28908系列），以及ConnectX-6 Dx系列（MT2892系列）。

可搭配Nvidia即將發表的企業級AI軟體套件

在機器學習軟體平臺的搭配上，vSphere 7.0 Update 2也支援Nvidia同日發表的企業級AI工具與框架軟體套餐：AI Enterprise，這套解決方案所提供的軟體，是經由Nvidia的認證、調校與支援而成，而Nvidia為vSphere 7.0 Update 2提供了獨家認證，可建置在通過Nvidia認證的伺服器（Nvidia-Certified System），讓企業能藉由既有的伺服器虛擬化平臺，促成用於各個環節的AI解決方案，而非將AI專案執行在個別、不受集中控管的IT孤島。

支援AMD今年發表的第三代EPYC處理器，提供更強大的效能，並擴增虛擬化加密的應用

強化伺服器處理器平臺的效能，也是vSphere 7.0 Update 2的重點特色之一。VMware表示，若是搭配AMD EPYC處理器的伺服器，新版vSphere效能最高可提升3成。之所以如此，是因為ESXi更新了排程器（scheduler），能夠善用AMD處理器採用的非統一記憶體存取架構（NUMA），而能針對虛擬機器與容器的執行位置提供更理想的決定機制，這樣的CPU最佳化，也能讓用戶部署更多臺虛擬機器或容器。

在機密運算（Confidential Computing）的支援上，vSphere 7.0 Update 2也增加了Confidential Containers for vSphere Pods（Confidential vSphere Pod）的功能，可用在搭配AMD EPYC處理器的伺服器，所憑藉的是AMD發展的安全虛擬化加密狀態技術（SEV-ES），可預防CPU暫存器將資訊洩漏到其他元件，像是Hypervisor，也能偵測針對CPU暫存器狀態的惡意修改，因此，可以防護基於容器的應用程式，提升整體安全性。

而所謂的Confidential vSphere Pod，能在vSphere with Tanzu環境的Supervisor Cluster上執行，這是運用硬體技術，促使虛擬機器作業系統使用的記憶體維持加密狀態的作法，可保護來自Hypervisor層級的非法存取。

對於傳統虛擬機器環境的保護，vSphere新版內含基本的金鑰管理伺服器功能，稱為Native Key Provider，可簡化加密與進階安全功能的啟用。除此之外，這一版vSphere也提供了VMware vCenter Server系統服務的FIPS驗證功能，以及更新的vSphere產品稽核指南，能讓用戶輕鬆符合法規遵循的要求，以及完成稽核程序。

產品資訊

VMware vSphere 7.0 Update 2
●原廠：VMware
●建議售價：廠商未提供
●硬體需求：雙核心處理器、8GB記憶體、32GB硬碟空間
●系統元件：ESXi、vCenter Server（身分認證服務Authentication Services、vCenter Server內建服務）
●單臺虛擬機器硬體最大組態：768顆虛擬核心、24TB記憶體、62TB虛擬硬碟容量、10張虛擬網卡、連接20個USB裝置、12TB持續性記憶體、64支NVDIMM、4張虛擬NVMe介面卡

【註：規格與價格由廠商提供，因時有異動，正確資訊請洽廠商】

強化Nvidia GPU多執行個體技術，以及GPU直接I/O技術的支援

可搭配Nvidia即將發表的企業級AI軟體套件

支援AMD今年發表的第三代EPYC處理器，提供更強大的效能，並擴增虛擬化加密的應用

熱門新聞