已记录机器检查事件

已记录机器检查事件

在 /var/log/messages 中,发生了以下错误:

Sep 19 13:18:15 wdc kernel: [2772302.630416] Machine check events logged

不久之后,整个服务器就变得没有响应了。这是 Xen Server(在 Debian Squeeze 上运行最新版本)的 Dom0 日志中的内容。

有人能解释一下这个错误是什么意思吗?我应该订购新硬件吗?

编辑:此外,它似乎暗示它记录了一些东西,我在哪里可以找到它?

答案1

要了解更多信息,请检查日志文件(此日志文件可能存在,也可能不存在,这取决于它在 /etc/mcelog/mcelog.conf 中的配置方式),其中应该有发现问题的详细描述。

/var/log/mcelog

或者直接运行命令

mcelog


Mcelog 正在解码 x86 机器上的内核机器检查日志。来自man mcelog

X86  CPUs  report  errors  detected by the CPU as machine check events (MCEs).  These
can be data corruption detected in the CPU caches, in main memory by an integrated
memory controller, data transfer errors on the front side bus or CPU interconnect or
other internal errors. Possible causes can be cosmic radiation, instable power
supplies, cooling problems, broken hardware, or bad luck.
Most  errors  can  be  corrected by the CPU by internal error correction mechanisms.
Uncorrected errors cause machine check exceptions which may panic the machine.
When a corrected error happens the x86 kernel writes a record describing the MCE into
a internal ring buffer available through  the  /dev/mcelog device  mcelog retrieves
errors from /dev/mcelog, decodes them into a human readable format and prints them on
the standard output or optionally into the system log.


您可以在项目网页上找到有关 mcelog 及其配置/错误/触发器的更多信息Mcelog 项目网页

答案2

mcelog在 Debian 10+ (Buster) 中被删除,Ubuntu 18.04+

该功能已被取代rasdaemon

答案3

日志条目由麦克洛格. 其日志文件可以在 中找到/var/log/mcelog,或者根据系统不同,还可以在 syslog 或 systemd journal 中找到。

X86 CPU 能够检测并有时纠正硬件错误(内存、IO 和 CPU 硬件错误)。mcelog 从 检索这些错误/dev/mcelog,然后 Linux 内核将其写入其中。

由于您的系统崩溃,硬件校正可能失败。如果系统继续运行,则自动校正似乎正在起作用。

有关看到此类消息的含义的更多背景信息,请参阅系统日志中出现“mce: [硬件错误]: 记录了机器检查事件”。我该怎么办?

相关内容