在 Linux 上监控物理 RAM 错误

在 Linux 上监控物理 RAM 错误

我想监控两个 Linux 系统(Ubuntu 和 Red Hat)的 RAM。我知道我可以从启动时运行 memtest86 来诊断坏 RAM。但是有没有解决方案可以在系统仍在运行时监控 RAM。我有点想使用一个守护进程来写入和读取随机未使用的内存。有人见过这样的事情吗?

答案1

大多数现代服务器都有一个 IPMI 模块,它会报告坏的 RAM(通常通过来自 ECC RAM 的 SBE(单比特错误)消息)——您您在服务器中使用 ECC RAM,对吗?)。IPMI 模块还监控和报告许多其他有用的东西。

您可以使用各种网络监控系统(如果您有 IPMI NIC 的管理网络)或使用ipmitool大多数 Unix 系统上可用的网络监控系统来监控 IPMI 模块。许多供应商(当然是 Dell 和 IBM)也有专门的工具来查询 IPMI 模块以进行在线诊断。请咨询您的硬件供应商以了解更多详细信息。

答案2

这是一个脚本:
http://www.grons.nl/memtest.sh

从这里: http://web.archive.org/web/20080726104439/http://people.redhat.com/dledford/memtest.html

它看起来像是多次解压 Linux 内核的副本以耗尽可用内存(我认为这可以进行修改,以便测试“大部分” RAM,但不是全部),然后检查解压后的副本以验证完整性。

巧妙使用简单的实用程序。

相关内容