我安装了 Dual P100 64G 卡,但无法让 nvidia-smi 或 deviceQuery 识别它。
我尝试使用默认的 ubuntu 驱动程序和手动安装的 nvidia 网站驱动程序(清理默认驱动程序后),但没有成功。我跟着这个程序安装 CUDA 工具包并编译实用程序(包括 deviceQuery),但我总是得到No devices were found
.
这是一些输出:
$ lspci -nn | grep 3D
03:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)
04:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)
$ nvidia-smi
No devices were found
$ cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module 460.32.03 Sun Dec 27 19:00:34 UTC 2020
GCC version: gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04)
$ ./deviceQuery Starting...
CUDA Device Query (Runtime API) version (CUDART static linking)
cudaGetDeviceCount returned 100
-> no CUDA-capable device is detected
Result = FAIL
我似乎找到驱动程序和卡之间的链接的唯一地方是/sys/bus/pci/drivers/nvidia
我看到 Tesla 芯片 PCI id 的文件夹0000:03:00.0
和0000:04:00.0
我怎样才能让它们按预期工作?
答案1
问题是硬件问题,我的旧主板不支持该卡所具有的 64G 足够大的内存寻址。它需要在Bios中启用“Above 4G Decoding”并禁用CSM支持,而我的旧主板不支持4G以上解码。
在华硕 TUF x570 Plus 上,通过正确的 Bios 设置,它可以工作!我可以使用这些卡,我在 nvidia-smi 等中看到它们。
在 Nvidia 论坛上查看更多详细信息: