无法初始化 NVML:未知错误 - 无法在带有 Vmware ESXI 6.7 的 vSphere Host Server 上完成 NVIDIA Tesla P100 网格设置

无法初始化 NVML:未知错误 - 无法在带有 Vmware ESXI 6.7 的 vSphere Host Server 上完成 NVIDIA Tesla P100 网格设置

我无法在主机服务器NVIDIA Tesla P100上设置网格设置。vSphereVmware ESXI 6.7DELL EMC poweredge R740

当我尝试运行nvidia-smi命令时出现以下错误

Failed to initialize NVML: Unknown Error

NVIDIA 驱动如下

#esxcli software vib list |grep -i nvidia 
NVIDIA-VMware_ESXi_6.7_Host_Driver 390.113-1OEM.670.0.0.8169922 NVIDIA VMwareAccepted 2019-03-06

它还显示为操作系统中加载的模块,如下所示

# vmkload_mod -l | grep nvidia
nvidia 0 13828

我们还对 BIOS 进行了以下更改

Memory Mapped I/O above 4 GB - Enabled
Memory Mapped I/O above Base - 512 GB

主机操作系统:Vmware ESXI 6.7

NVIDIA 图形硬件:Tesla P100

请帮我解决这个问题

答案1

我自己已经解决了这个问题。我从一个在线资源。正如上面提到的资源中所说,为了解决这个问题,我必须DirectPath I/O在主机上禁用。

上述资源中提供的修复如下。

您需要在主机上禁用“DirectPath I/O”。导航至硬件 –> PCI 设备。确保未选择显卡作为直通设备。感谢 NVIDIA 的 Simon Schaber 为我提供了最后的线索。

相关内容