带有 NVMe 硬盘的 IOMMU 导致系统偶尔崩溃 - NVMe 无法读取/写入

带有 NVMe 硬盘的 IOMMU 导致系统偶尔崩溃 - NVMe 无法读取/写入

我的系统随机崩溃 - i7-7700K、GA-Z270X-UD3 和 Debian/testing。

崩溃不会将任何输出保存到 /var/log,这听起来很合乎逻辑,因为在屏幕上我看到一些关于系统无法将任何内容写入 /dev/nvme 分区的调试信息,而且我甚至无法正确卸载或重新启动系统 - 磁盘的行为就像拔掉电源一样。

我已经尝试诊断问题超过 6 个月了,最后终于找到了一个东西 - IOMMU。在重新安装后,一个多月内没有出现过一次崩溃 - 直到我启用了 iommu,因为我想将 GPU(旧 Nvidia Quadro)传递到虚拟机。

即使拔掉 GPU 后,我仍然遭受挤压,所以这不是那个 GPU 的问题。

我非常确定这与 IOMMU 有关 - 即使没有任何虚拟机运行、没有任何设备直通,这些崩溃也会出现。在重新启用 IOMMU 之前进行干净的重新安装后 - 一次都没有。

有人遇到过类似的问题吗?我该怎么办?报告错误,没有任何有用的调试信息?

虚拟机和 GPU 直通运行良好,没有任何问题,崩溃似乎与正在使用的计算机有关(如果处于空闲状态,它已经稳定运行了一两周)。否则它是随机的。我正在使用 qemu-kvm。

答案1

没关系。(可能)只是电源单元出现故障,只有在高负载(例如要处理多个操作系统)下才会出现症状。

相关内容