我们的 SSD VPS 出现了崩溃,所有运行在 KVM 上的 VPS 都出现了崩溃:崩溃的原因各不相同;为了急于恢复服务,我的团队重新加载了机器的先前快照,但从不保存日志。
无论如何,在所有不同的崩溃情况下,一个反复出现的事实是corruption of in-memory data
:我们的 VPS 提供商告诉我们他们的硬件运行良好,但我不知道如何读取我收到的糟糕日志。
当检测到“内存数据损坏”时会涉及什么?可能是因为 RAM 损坏,或者是其他类型的内存损坏?
有趣的是:使用 VMware 的 VPS 提供商从来没有给我们带来麻烦,而使用 KVM 的 VPS 提供商却因为这些崩溃而让我们抓狂。
编辑1:我绝不要求你们从这个糟糕的日志中推断出解决方案。我被这个问题困扰着,没有提供像样的日志,memtest
因为硬件是模拟的,而且 VPS 提供商保证他们的硬件没有问题,并且没有 KVM 或 QEMU 实例崩溃,所以日志毫无用处。这个问题corruption of in-memory data detected
困扰着我,我想不出任何有效的方法来进一步调查这个问题。
答案1
“检测到内存数据损坏”并不一定意味着硬件 RAM 有问题。它也可能表示某个块被错误地读取或写入,存储发生一点翻转或出现其他故障,可能是文件系统错误,以及一些其他原因。
如果存在一些潜在的文件系统损坏,恢复到快照可能无法解决问题;它稍后只会再次出现。
相反,你应该使用xfs_repair
文件系统,但由于它是根文件系统,你需要从安装介质启动或您的 VPS 提供商提供的救援环境。
如果xfs_repair
无法修复文件系统,您可以运行xfs_repair -L
以清除 XFS 日志(其本身可能已损坏)然后尝试再次修复文件系统。