使用 eGPU 集群导致 Ubuntu 21.10 崩溃

使用 eGPU 集群导致 Ubuntu 21.10 崩溃

我们设置了一台搭载 Ubuntu 21.10 的 AMD Ryzen 计算机,并插入了 6 台 Akitio Duo 机器,每台机器配备 2 张 NVIDIA 4GB 卡,以及直接在 PCIe 插槽上的第 13 张卡,这是一张 16GB NVIDIA 卡(RTX A4000)。

我们的设备运行着 16 个 Alphafold2 线程(https://github.com/deepmind/alphafold#running-alphafold) 并且大多数情况下,它可以运行一段时间而没有问题。

但每隔一段时间,大概平均每 24 小时左右,计算机就会完全锁定。如果我们只在 16GB 卡上运行 4x Alphafold2,计算机可以稳定运行数周,因此问题似乎出在 Akitio eGPU 卡上的作业上。

有没有什么地方可以告诉我们它为什么崩溃(计算机已打开,但完全没有响应,只有按物理电源按钮重新启动才能解决问题)?

看起来/var/log/kern.log似乎没有发现任何表明该问题的迹象。

编辑:

当只插入 16GB 卡和 2 个 Akitio 时运行dmidecode,结果如下:

# dmidecode --type 9 | egrep "Usage|Type|Designation"
        Designation: PCIEX16_1
        Type: x16 PCI Express
        Current Usage: Available
        Designation: PCIEX16_2
        Type: x8 PCI Express
        Current Usage: In Use
        Designation: PCIEX1_1
        Type: x1 PCI Express
        Current Usage: Available

感谢 @matigo 建议查看系统日志。在最近的崩溃中,它显示了“@^”位上方的位,然后硬重启发生在 10:02。

在此处输入图片描述

相关内容