我有一台 HPE 服务器 (DL385),里面有 3 个 Nvidia A100。它运行的是 ubuntu 22.04,内核版本为 6(我试过 5)。默认情况下,它在 BIOS 中处于节能模式。
当我尝试将其置于 HPC 模式(一种禁用 SR-IOV 等某些功能并更改 numa 配置等的模式)时,命令 nvidia-smi 只显示一个 GPU。
但使用 lspci | grep NVIDIA 我仍然可以看到它们
为了重新找到 nvidia-smi 中的 GPU,我必须重新启用 SR-IOV(只要 SR-IOV 就足够了)。
在运行 Fedora 36 的类似服务器上,我没有遇到这种问题。
有人知道这里发生了什么事吗?
谢谢,
纪尧姆