我们设置了一台搭载 Ubuntu 21.10 的 AMD Ryzen 计算机,并插入了 6 台 Akitio Duo 机器,每台机器配备 2 张 NVIDIA 4GB 卡,以及直接在 PCIe 插槽上的第 13 张卡,这是一张 16GB NVIDIA 卡(RTX A4000)。
我们的设备运行着 16 个 Alphafold2 线程(https://github.com/deepmind/alphafold#running-alphafold) 并且大多数情况下,它可以运行一段时间而没有问题。
但每隔一段时间,大概平均每 24 小时左右,计算机就会完全锁定。如果我们只在 16GB 卡上运行 4x Alphafold2,计算机可以稳定运行数周,因此问题似乎出在 Akitio eGPU 卡上的作业上。
有没有什么地方可以告诉我们它为什么崩溃(计算机已打开,但完全没有响应,只有按物理电源按钮重新启动才能解决问题)?
看起来/var/log/kern.log
似乎没有发现任何表明该问题的迹象。
编辑:
当只插入 16GB 卡和 2 个 Akitio 时运行dmidecode
,结果如下:
# dmidecode --type 9 | egrep "Usage|Type|Designation"
Designation: PCIEX16_1
Type: x16 PCI Express
Current Usage: Available
Designation: PCIEX16_2
Type: x8 PCI Express
Current Usage: In Use
Designation: PCIEX1_1
Type: x1 PCI Express
Current Usage: Available
感谢 @matigo 建议查看系统日志。在最近的崩溃中,它显示了“@^”位上方的位,然后硬重启发生在 10:02。