检测到内存数据损坏:问题出在哪里?

检测到内存数据损坏:问题出在哪里?

我们的 SSD VPS 出现了崩溃,所有运行在 KVM 上的 VPS 都出现了崩溃:崩溃的原因各不相同;为了急于恢复服务,我的团队重新加载了机器的先前快照,但从不保存日志。

无论如何,在所有不同的崩溃情况下,一个反复出现的事实是corruption of in-memory data:我们的 VPS 提供商告诉我们他们的硬件运行良好,但我不知道如何读取我收到的糟糕日志。

在此处输入图片描述

当检测到“内存数据损坏”时会涉及什么?可能是因为 RAM 损坏,或者是其他类型的内存损坏?

有趣的是:使用 VMware 的 VPS 提供商从来没有给我们带来麻烦,而使用 KVM 的 VPS 提供商却因为这些崩溃而让我们抓狂。

编辑1:我绝不要求你们从这个糟糕的日志中推断出解决方案。我被这个问题困扰着,没有提供像样的日志,memtest因为硬件是模拟的,而且 VPS 提供商保证他们的硬件没有问题,并且没有 KVM 或 QEMU 实例崩溃,所以日志毫无用处。这个问题corruption of in-memory data detected困扰着我,我想不出任何有效的方法来进一步调查这个问题。

答案1

“检测到内存数据损坏”并不一定意味着硬件 RAM 有问题。它也可能表示某个块被错误地读取或写入,存储发生一点翻转或出现其他故障,可能是文件系统错误,以及一些其他原因。

如果存在一些潜在的文件系统损坏,恢复到快照可能无法解决问题;它稍后只会再次出现。

相反,你应该使用xfs_repair文件系统,但由于它是根文件系统,你需要从安装介质启动或您的 VPS 提供商提供的救援环境。

如果xfs_repair无法修复文件系统,您可以运行xfs_repair -L以清除 XFS 日志(其本身可能已损坏)然后尝试再次修复文件系统。

相关内容