如何知道服务器是否因内存错误而失败

如何知道服务器是否因内存错误而失败

我最近读这张纸@codinghorror 发了一条推文,我想知道我怎么知道我的服务器因内存错误而出现故障?特别是,我怎么知道这是一个可纠正的错误还是一个不可纠正的错误,以及它发生在哪个 DIMM 上?

答案1

SNMP 陷阱/消息是主动通知内存/DIMM 错误的最佳选择。HP Systems Insight Manager、HP OpenView 和 Dell OpenManage 等产品提供了多种可配置规则,可将 SNMP 消息转发到电子邮件/短信/寻呼机,以便准确告知何时发生内存错误或性能下降。

答案2

如果您的服务器性能良好,那么它应该具有 BIOS 和 BMC 组合,可以跟踪这些错误并将它们记录在 IPMI 中,以便您可以查看它们。通常,您的服务器会因无法纠正的 ECC 错误而停止运行,BIOS 会在 SMI 中断中接管并将其记录在 BMC 中。然后,它会恢复操作系统的运行,而操作系统除了正常重新启动外没有其他更好的选择(有时可以终止进程并继续运行)。IPMI SEL 日志应该是 ECC 错误的标志。

如果您的服务器没有良好的 BMC/BIOS,您可以求助于使用加载的崩溃内核,主机内核将跳转到该内核,它可以记录完整的堆栈跟踪和 dmesg 日志,以便稍后查看以获取此信息。它将以粗体字母“硬件错误”记录在崩溃内核的 dmesg 中。

答案3

只需使用 memtest!它会告诉您哪个 DIMM 有问题。http://www.memtest86.com/

答案4

检查服务器自身的诊断。由于您没有告诉我们有关服务器的任何信息,因此我无法给出最详细的答案。

相关内容