VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

1、驱动准备

从NVIDIA网站(https://nvid.nvidia.com/ 需有购买NVIDIA账号登陆访问)下载对应驱动包或者第三方下载

2、NVIDIA常用链接

显卡和驱动版本匹配查询地址:https://docs.nvidia.com/grid/gpus-supported-by-vgpu.html

GPU1,23vGPU 17vGPU 164vGPU 15vGPU 14vGPU 13vGPU 12vGPU 11vGPU 10vGPU 9vGPU 8vGPU 7vGPU 6vGPU 5GRID 4GRID 3GRID 2
NVIDIA A800 PCIe 80GB
NVIDIA A800 PCIe 80GB liquid cooled
NVIDIA A800 HGX 80GB
NVIDIA A100 HGX 80GB
NVIDIA A100 PCIe 80GB
NVIDIA A100 PCIe 80GB liquid cooled
NVIDIA A100X
NVIDIA A100 HGX 40GB10
NVIDIA A100 PCIe 40GB10
NVIDIA A40
NVIDIA A30
NVIDIA A30X
NVIDIA A16
NVIDIA A109
NVIDIA A2
NVIDIA H800 PCIe 80GB6
NVIDIA H100 PCIe 80GB
NVIDIA L40S4
NVIDIA L407
NVIDIA L208
NVIDIA L20 liquid cooled9
NVIDIA L46
NVIDIA L28
NVIDIA RTX 5000 Ada4
NVIDIA RTX 5880 Ada
NVIDIA RTX 6000 Ada7
NVIDIA RTX A6000
NVIDIA RTX A5500
NVIDIA RTX A50009
Quadro RTX 8000
Quadro RTX 8000 passive
Quadro RTX 6000
Quadro RTX 6000 passive
Tesla V100
Tesla T411
Tesla P100
Tesla P40
Tesla P6
Tesla P4
Tesla M60
Tesla M10
Tesla M6
GRID K2
GRID K1

服务器和显卡兼容性查询地址:https://www.nvidia.cn/data-center/resources/vgpu-certified-servers/

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

英伟达最全vGPU 链接:http://vgpu.com.cn/可以查看所有相关的文档

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

NVIDIA Grid驱动版本匹配地址:

https://docs.nvidia.com/grid/get-grid-version.html

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

3、开启vsphere ssh功能

在vSphere平台下安装vGPU驱动之前需要打开ESXi的SSH服务,方便来传输vib驱动安装包以及后面一些命令行的操作。

ESXi需要加入vCenter,vGPU相关的一些配置都需要在vCenter下来修改。

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

4、上传驱动包

使用WinSCP把驱动压缩包中Host主机目录下相关文件传到ESXi的/tmp目录下,根据驱动版本不同,文件夹下文件也不同,对于目前的长周期支持分支vGPU 13.x(ESXi 7.0 推荐使用,不支持ESXi 8.0),Host主机仅有一个NVD-VGPU开头的驱动包,对于最新的产品分支vGPU 15.x及之后(支持ESXi 8.0) ,还会有一个nvd-gpu-mgmt-daemon开头的文件,Host主机下的NVD-VGPU开头的驱动zip文件不需要再次解压,请把文件直接拷过去。

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

对于nvd-gpu-mgmt文件,在最新的15.3版本中做了2次打包,所以nvd-gpu-mgmt-daemon_525.125.03-0.0.0000_21816754-package.zip这个文件需要解压,然后把解压得到的nvd-gpu-mgmt-daemon_525.125.03-0.0.0000_21816754.zip文件拷过去,注意我们需要的安装文件是不带package结尾的,之前的版本如15.2不用解压直接拷过去就行,最新16.0版本驱动也直接可用,安装之前先检查一下。

5、主机安装显卡驱动

5.1、安装驱动之前先检查一下GPU是否被正常识别到,SSH到ESXi,使用命令:lspci | grep NVIDIA 来检查。

5.2、服务器需要在BIOS里开启SR-IOV和Monitor/Mwait功能

登录ESXI网页将主机进入维护模式,开始安装驱动

对于vGPU 13.x:esxcli software vib install -d /tmp/NVD-VGPU*.zip

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

5.3、对于vGPU 15.x及之后需要执行俩次命令:

esxcli software vib install -d /tmp/NVD-VGPU*.zip

esxcli software vib install -d /tmp/nvd-gpu-mgmt-daemon*.zip

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置
VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

重启完成后输入nvidia-smi

5.5、特别注意2点:1、ECC模式是否显示off 2、默认情况下vSphere会使用vsga模式,而不是vGPU模式,所以能看到最下面xorg条目,这个我们后面改。
如果看到nvidia-smi信息里面ECC区域不是off状态,而是0,这说明你现在的ECC是启用的状态,并不是所有vgpu都可以使用ECC,如果你不能确认你的环境是否需要启用ECC,那建议先关闭ECC

5.6、使用命令来关闭ECC,注意,启用或者关闭ECC都需要重启主机。

执行命令关闭ECC,关闭后需要重启主机  nvidia-smi –e 0

5.7、驱动安装完成后将主机退出维护模式。

6、vCenter配置显卡共享模式

6.1、登陆vCenter,定位到主机-配置-图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享”才能使用vGPU。
6.2、默认为共享,修改成直接共享,并重启xorg服务。

更改成功以后就没有xorg条目了,可以开始使用vGPU了!

7、分配虚拟机显卡资源

7.1、编辑虚拟机,新增PCI设备,可根据授权来分配显卡Q B A

显存分配必须一致,比如一个主机下所有虚拟机显存都是2Q 或者4Q,
不能虚拟机1是2Q,虚拟机2是4Q,显卡资源调度会有问题。

7.2、GPU显卡选择类型如下:

每一种物理GPU支持的vGPU类型都不一样。VGPU显卡性能主要以分配的显存及显卡类型进行划

分,即虚拟机所分配的虚拟显卡型号。VGPU有几种后缀:

1.Q系列虚拟GPU类型针对设计师和高级用户。(vDWS,虚拟工作站)

2.B系列虚拟GPU类型针对高级用户。(vPC,虚拟pc)

3.A系列虚拟GPU类型针对虚拟应用程序用户。(VAPP虚拟应用,有点类似于远程应用)

8、系统安装驱动包 

8.1、Win10系统挂载好显存后,开机安装显卡驱动包

安装虚拟机驱动,注意一定要使用安装包内对应版本的驱动(使用不同版本可能会有问题),截图示例win10系统驱动包

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

安装驱动后,重启虚拟机,在控制台界面,看到“黑屏”,这是正常的。使用远程桌面RDP协议登录

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置

声明: 本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
VMware vSphere

搭建VMware Horizon8私有云桌面虚拟化(五)Horizon连接vCenter Server

2024-12-12 16:58:46

Kubernetes

记一次机房搬迁后网络改造引起的K8S内部容器无法访问外部网络

2024-12-6 22:01:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索