nvidia-smi 无法识别 GPU

nvidia-smi 无法识别 GPU

可能重复,但那篇帖子是在 MS 窗口上,我的是在 Linux 上,我无法通过阅读那篇帖子解决我的问题。

眼镜:

注意:这是一个采矿设备。

5 个 GPU 通过 x1 PCIe 转接卡连接到主板,第 6 个 GPU 通过 M2 插槽连接到主板。PCIe 转接卡和 GPU 不是问题,因为对于 6 张卡中的 4 张的任意组合。系统按预期运行。

当所有 6 张卡都安装到主板上时,

lspci | grep -i vga

报告 busID 从 1 到 6 的所有 6 张卡,但只有 4 张被检测到nvidia-smi并运行。

dmesg | grep -i  nvidia

报告此情况为 smi 未检测到的 2 个卡(busID 为 4 和 5、5 和 6 或 4 和 6):

NVRM: This PCI I/O region assigned to your NVIDIA device is invalid:

所以我认为我的芯片组没有足够的 PCIe 通道,而 M2 的 x4 占用了所有通道,但当我在 Intel 主页上查找时。Intel H170 芯片组(我的主板芯片组)有 16 个 PCIe 通道。我的 5 个 GPU(x1),其中 2 个使用 CPU 通道(x8 和 x16 插槽),因此 3 + 4(M2 插槽)= 7 个通道,取自芯片组的 16 个 PCIe 通道。因此,我的主板应该能够处理 6 个 GPU,对吗?我该如何让它运行?

相关内容