我最近设置了几个新服务器。这次我使用 dmcrypt+LUKS 加密了大部分分区。但是这些新服务器经常崩溃,每隔几天就会崩溃一次。完全锁定,内核不响应键盘,系统不 ping。根据 Munin 图表和 atop 记录,资源使用量没有增加。本地 syslog 日志中没有相关日志记录。我们的远程日志主机(新服务器将 syslog 转发到该主机)上没有相关记录。没有相关的 netconsole 消息(新服务器使用 netconsole 将所有内核消息转发到日志主机)。内核甚至没有向 TTY 打印任何内容。我要求托管公司进行完整的硬件测试,但他们什么也没发现。我怀疑是 LUKS。还有其他人也遇到过使用 LUKS 完全锁定的情况吗?我能找到的唯一参考资料是http://ubuntuforums.org/showthread.php?t=2125287。
答案1
我在尝试在dmcrypt+LUKS分区。在使用该命令安全擦除 LUKS 分区时,问题总是会出现dd if=/dev/zero of=/dev/mapper/crypt1
,大约覆盖 6-7GB 的数据后。结果发现是内存模块出现故障,4x4GB 中的一个。
第 4.3 点cryptsetup 常见问题页面描述了内存故障如何在写入加密设备时导致严重损坏,以及冻结和锁定等相关症状,这使我怀疑内存故障。
如果我是你,我会怀疑托管公司如何检查他们的系统。告诉他们转发至少一个周期的测试结果给你Memtest86+和测试仪。
笔记
仅供参考,我列出了一些帖子/讨论,描述了我在寻找提示和解决方案时遇到的类似问题: