如何使用 UBUNTU OS 命令识别服务器中有故障的 GPU 卡插槽?

如何使用 UBUNTU OS 命令识别服务器中有故障的 GPU 卡插槽?

我有个问题。是否可以使用 UBUNTU 操作系统识别哪个插槽中有损坏的 GPU 卡?我们有一台 SuperMicro GPU 服务器,其中有大约 8 张用于 AI 计算的 GPU 卡。我们时不时地会从用户/部门那里得到信息,说该卡在“nvidia-smi”命令中不可见,然后去服务器机房。这些通常是硬件故障。然后我们遇到 7 张卡正常工作的情况,不幸的是,我们必须通过反复试验将其从服务器中拉出来识别故障卡。这非常繁琐且耗时,所以我想知道是否有可能明确地识别故障卡所在的插槽。

先感谢您。

答案1

一般来说,如果你能找出这张卡的 PCI 总线地址,你就能找到它所占用的准确插槽。遍历dmidecode输出并找出这个 PCI 地址出现在哪个插槽中。

但是,只有当您确信 DMI 中的 PCI 插槽编号是可预测的并且与主板上的实际物理插槽相对应时,这才有用。在品牌计算机(HPE、戴尔等)中,情况通常如此。如果主板是由信誉较差的品牌制造的,其 DMI 数据可能不同步。尽管如此,这还是值得一试的。

相关内容