Nvidia Tesla PH402 双 P100 卡在 lspci 上显示,但在 nvidia-smi 上不显示

Nvidia Tesla PH402 双 P100 卡在 lspci 上显示,但在 nvidia-smi 上不显示

我安装了 Dual P100 64G 卡,但无法让 nvidia-smi 或 deviceQuery 识别它。

我尝试使用默认的 ubuntu 驱动程序和手动安装的 nvidia 网站驱动程序(清理默认驱动程序后),但没有成功。我跟着这个程序安装 CUDA 工具包并编译实用程序(包括 deviceQuery),但我总是得到No devices were found.

这是一些输出:

$ lspci -nn | grep 3D
03:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)
04:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)

$ nvidia-smi 
No devices were found

$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.32.03  Sun Dec 27 19:00:34 UTC 2020
GCC version:  gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04) 

$ ./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 100
-> no CUDA-capable device is detected
Result = FAIL

我似乎找到驱动程序和卡之间的链接的唯一地方是/sys/bus/pci/drivers/nvidia我看到 Tesla 芯片 PCI id 的文件夹0000:03:00.00000:04:00.0

我怎样才能让它们按预期工作?

答案1

问题是硬件问题,我的旧主板不支持该卡所具有的 64G 足够大的内存寻址。它需要在Bios中启用“Above 4G Decoding”并禁用CSM支持,而我的旧主板不支持4G以上解码。

在华硕 TUF x570 Plus 上,通过正确的 Bios 设置,它可以工作!我可以使用这些卡,我在 nvidia-smi 等中看到它们。

在 Nvidia 论坛上查看更多详细信息:

https://forums.developer.nvidia.com/t/ph402-dual-p100-64g-rminitadapter-failed-memory-mapping-issue/173877

相关内容