有人使用 LUKS 时遇到过整个系统死机的情况吗?

有人使用 LUKS 时遇到过整个系统死机的情况吗?

我最近设置了几个新服务器。这次我使用 dmcrypt+LUKS 加密了大部分分区。但是这些新服务器经常崩溃,每隔几天就会崩溃一次。完全锁定,内核不响应键盘,系统不 ping。根据 Munin 图表和 atop 记录,资源使用量没有增加。本地 syslog 日志中没有相关日志记录。我们的远程日志主机(新服务器将 syslog 转发到该主机)上没有相关记录。没有相关的 netconsole 消息(新服务器使用 netconsole 将所有内核消息转发到日志主机)。内核甚至没有向 TTY 打印任何内容。我要求托管公司进行完整的硬件测试,但他们什么也没发现。我怀疑是 LUKS。还有其他人也遇到过使用 LUKS 完全锁定的情况吗?我能找到的唯一参考资料是http://ubuntuforums.org/showthread.php?t=2125287

答案1

我在尝试在dmcrypt+LUKS分区。在使用该命令安全擦除 LUKS 分区时,问题总是会出现dd if=/dev/zero of=/dev/mapper/crypt1,大约覆盖 6-7GB 的数据后。结果发现是内存模块出现故障,4x4GB 中的一个。

第 4.3 点cryptsetup 常见问题页面描述了内存故障如何在写入加密设备时导致严重损坏,以及冻结和锁定等相关症状,这使我怀疑内存故障。

如果我是你,我会怀疑托管公司如何检查他们的系统。告诉他们转发至少一个周期的测试结果给你Memtest86+测试仪

笔记

仅供参考,我列出了一些帖子/讨论,描述了我在寻找提示和解决方案时遇到的类似问题:

  • 这家伙看门狗进程报告了一些 CPU 锁定。虽然这个问题似乎与加密或内存故障无关,而是与 CPU 风扇故障有关,但正是在这时我开始怀疑硬件问题。
  • 这些家伙似乎有类似的症状,并且线程中的最后一句话提到“大量 RAM”。
  • 此主题(还这里) 描述了很久以前的内核版本 2.6.24 中存在的软锁定问题,当时已提交了补丁。症状似乎相似,但对我来说根本原因不同。这个帖子似乎也描述了同样的问题。

相关内容