虚拟化教程 (4) : NVIDIA vGPU 软硬件选型指南
nanshan 2024-11-15 22:49 20 浏览 0 评论
NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作空间。
完整的 NVIDIA vGPU 方案包含 GPU 硬件与 vGPU 软件,将 GPU 硬件与 vGPU 软件解耦,能够使用户定期从软件的更新功能中受益,同时也为 IT 部门提供灵活性,以满足不同环境中用户的特定需求。
那么,如何选择能满足用户工作负载要求的 NVIDIA GPU 和虚拟化软件的组合方案呢?
今天我们从 vGPU 的许可类型、软件版本、支持的虚拟化平台、物理 GPU、虚拟机 vGPU Profile 等方面来介绍 NVIDIA vGPU 的软硬件选型指南,以帮助您选择适合不同工作负载的虚拟化软件和 GPU。
vGPU 许可类型的选择
NVIDIA vGPU 目前包含三种许可类型,NVIDIA Virtual Applications (vApp)、NVIDIA Virtual PC (vPC)、NVIDIA RTX Virtual Workstation (vWS),原来的 NVIDIA Virtual Compute Server (vCS) 已合并至 NVIDIA AI Enterprise (NVAIE) 软件套件中,本篇不做阐述。那么,在日常的虚拟化应用场景中,如何选择合适的 vGPU 许可类型呢?
1vApp
vApp 即 NVIDIA Virtual Applications(NVIDIA 虚拟应用程序)软件,专为应用程序流和远程桌面共享主机 (RDSH) 工作负载而设计。
2vPC
vPC 即 NVIDIA Virtual PC(NVIDIA 虚拟 PC)软件,专为知识工作者 VDI 工作负载而设计,可加速以下软件和应用设备:
- 办公生产力应用程序,如 Office 软件
- 流媒体视频
- Windows OS
- 多显示器
- 高分辨率显示器
- 2D 电子设计自动化 (EDA)
3vWS
vWS 即 NVIDIA RTX Virtual Workstation(NVIDIA RTX 虚拟工作站)软件,专为专业图形工作负载而设计,主要优势有:
- RTX Enterprise 平台驱动程序和 ISV 认证
- 支持 NVIDIA? CUDA? 工具包和 OpenCL
- 更高分辨率的显示器
- 具有大量帧缓冲区的 vGPU 配置文件
NVIDIA RTX vWS 可加速专业设计和可视化应用程序,例如:
- Autodesk Revit
- Dassault Systèmes CATIA
- Esri ArcGIS Pro
- Maya
- Petrel
- SolidWorks
…
NVIDIA vGPU 软件版本及虚拟化平台的推荐
历经十多个版本的迭代更新,NVIDIA vGPU 软件已经更新到最新的 vGPU 16 版本,目前仍在支持的 NVIDIA vGPU 软件版本有 NVIDIA vGPU software 13、NVIDIA vGPU software 15 和 NVIDIA vGPU software 16,其各自的 EOL 日期如下:
考虑到使用日期和售后支持等方面,推荐使用 vGPU 16 版本。
以 vGPU 16.2 版本为例,其支持的系统和虚拟化产品如下,用户可以根据现有的虚拟化平台进行选择。
1Citrix Hypervisor
2Microsoft Azure Stack HCI
3Microsoft Windows Server
4Red Hat Enterprise Linux with KVM
5Ubuntu with KVM
6VMware vSphere ESXi
7Nutanix AHV
该版本的 NVIDIA vGPU 软件支持 Nutanix AHV,基于 Linux 的 KVM 虚拟机管理程序。
更多版本的支持产品,可参阅:
https://docs.nvidia.com/grid/
(复制链接至浏览器打开)
未在列表中的、基于 Linux KVM 开发的其他虚拟化平台,需要和厂家确认是否兼容适配 vGPU 软件,建议实际测试,确定是否可以正常安装部署。
物理 GPU 的选择
NVIDIA vGPU 软件需要在具备 NVIDIA GPU 的平台上运行。vGPU 通过 time-sliced(时间切分)的方式共享 GPU 引擎,包括图形 (3D)、视频编解码引擎等,不同的 GPU 具备不同的规格,用户可以根据性能、成本和显存大小等因素选择合适的 GPU。针对目前仍在支持的虚拟 GPU 软件版本,支持的 GPU 有:
查看完整列表:
https://docs.nvidia.com/grid/gpus-supported-by-vgpu.html
(复制链接至浏览器打开)
虚拟机 vGPU Profile 的设定
可用 vGPU Profile 配置文件,在虚拟化教程 (2) 和虚拟化教程 (3)(点击蓝字跳转链接)中介绍许可类型功能特性时有提到,包括 vWS 的 1Q/2Q/../48Q,vPC 的 1B/2B,vApp 的 1A/2A/.../48A,可以将其认为是给虚拟机分配的显存大小。
经常有用户会问:如何去设定 vGPU Profile,才能满足当下的应用场景和业务需求?
大致可以从以下三个方向去考虑:
首先,反推法,先确定当下使用的物理 GPU 型号,以及支持应用程序或业务工作负载所需的显存大小,再反推应该怎么去划分。
其次,可以根据具体的应用程序官方推荐的 GPU 和显存大小等硬件需求,来进行具体的 vGPU 文件的配置和显存划分。
最后,正向测试方法,比如设计类用户,考虑到运行模型大小以及复杂程度的不同,可以通过一些工具或寻求供应商来评估,获取 POC 支持和优化的方案。这里推荐两个工具:
1GPU Profiler
GPU Profiler(GitHub 上可下载)是一个常用的工具,可以实时记录资源在虚拟机上执行工作负载时的利用率。该工具通常在 POC 阶段帮助调整虚拟环境大小,以确保可接受的性能。GPU Profiler 可以在具有各种 vGPU 配置文件的单个 VM 上运行。可以获取以下指标:
- 帧缓冲区
- GPU 利用率
- vCPU
- 内存
- 视频编码
- 视频解码
2NVIDIA System Management Interface
(nvidia-smi)
NVIDIA vGPU Manager 提供监控功能,让 IT 人员能够了解更好地利用 NVIDIA vGPU 的各种引擎的使用情况,包括帧缓冲区、编解码器等都可以通过命令行界面工具 nvidia-smi 进行监控和记录,并可以在 Hypervisor 或者虚拟机内进行访问。
适用于虚拟化工作负载的
NVIDIA vGPU 解决方案推荐
NVIDIA 虚拟化解决方案与基于当下 NVIDIA Ada Lovelace 和 Ampere 架构的 GPU 配合使用时,可提供巨大的灵活性和性能,从而满足当今企业不断变化的工作负载和组织需求。
▲ 推荐 vGPU 软硬件方案
如上图所示,如果追求最大限度地提高虚拟化工作负载的性能,可以考虑性能优化的 GPU,如果考虑到成本因素,则可以选择高性价比的 GPU。
当然,除了 NVIDIA 数据中心 GPU 之外,还有很多其他 GPU 支持虚拟化,包括 NVIDIA RTX? 专业图形卡系列:NVIDIA RTX? 5880 Ada Generation、NVIDIA RTX? 5000 Ada Generation、NVIDIA RTX? A5000 等。用户可根据具体需求,选择合适的 GPU 和软件。
*与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。
相关推荐
- 0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)
-
文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...
- ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes
-
为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...
- 生产环境starrocks 3.1存算一体集群部署
-
集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...
- 在CentOS上添加swap虚拟内存并设置优先级
-
现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...
- 国产深度(deepin)操作系统优化指南
-
1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...
- postgresql-15.4 多节点主从(读写分离)
-
1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...
- Docker 容器 Java 服务内存与 GC 优化实施方案
-
一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...
- 虚拟内存设置、解决linux内存不够问题
-
虚拟内存设置(解决linux内存不够情况)背景介绍 Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...
- Elasticsearch性能调优(5):服务器配置选择
-
在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...
- Es如何落地
-
一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...
- 针对Linux内存管理知识学习总结
-
现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...
- MySQL进阶之性能优化
-
概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...
- Linux Cgroups(Control Groups)原理
-
LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...
- linux 常用性能优化参数及理解
-
1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...
- 如何在 Linux 中使用 Sysctl 命令?
-
sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...
你 发表评论:
欢迎- 一周热门
-
-
UOS服务器操作系统防火墙设置(uos20关闭防火墙)
-
极空间如何无损移机,新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验
-
手机如何设置与显示准确时间的详细指南
-
NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程
-
如何在安装前及安装后修改黑群晖的Mac地址和Sn系列号
-
如何修复用户配置文件服务在 WINDOWS 上登录失败的问题
-
一加手机与电脑互传文件的便捷方法FileDash
-
日本海上自卫队的军衔制度(日本海上自卫队的军衔制度是什么)
-
10个免费文件中转服务站,分享文件简单方便,你知道几个?
-
爱折腾的特斯拉车主必看!手把手教你TESLAMATE的备份和恢复
-
- 最近发表
- 标签列表
-
- linux 查询端口号 (58)
- docker映射容器目录到宿主机 (66)
- 杀端口 (60)
- yum更换阿里源 (62)
- internet explorer 增强的安全配置已启用 (65)
- linux自动挂载 (56)
- 禁用selinux (55)
- sysv-rc-conf (69)
- ubuntu防火墙状态查看 (64)
- windows server 2022激活密钥 (56)
- 无法与服务器建立安全连接是什么意思 (74)
- 443/80端口被占用怎么解决 (56)
- ping无法访问目标主机怎么解决 (58)
- fdatasync (59)
- 405 not allowed (56)
- 免备案虚拟主机zxhost (55)
- linux根据pid查看进程 (60)
- dhcp工具 (62)
- mysql 1045 (57)
- 宝塔远程工具 (56)
- ssh服务器拒绝了密码 请再试一次 (56)
- ubuntu卸载docker (56)
- linux查看nginx状态 (63)
- tomcat 乱码 (76)
- 2008r2激活序列号 (65)