系统日志中出现“mce:[硬件错误]:记录了机器检查事件”。我该怎么办?

系统日志中出现“mce:[硬件错误]:记录了机器检查事件”。我该怎么办?

我已经安装了最新版本的操作系统安全评估中心(2.8.1),我还启用了电子邮件通知。我收到大量此类通知,说有硬件错误和一些有关 mce 的信息:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

那么这到底是什么意思?mce 代表什么?这个明显的硬件错误值得我担心吗?


操作系统信息:

Description:    Ubuntu 14.10
Release:    14.10

答案1

机器检查异常

A机器检查异常 (MCE)是一种计算机硬件错误,当计算机的中央处理器检测到硬件问题时就会发生。

您的计算机遇到硬件错误,内核在缓冲区中记录事件。您可以使用来mcelog记录和查看机器检查事件。从mcelog手册页

X86 CPU 将 CPU 检测到的错误报告为机器检查事件 (MCE)。这些可能是在 CPU 缓存中检测到的数据损坏、集成内存控制器在主内存中检测到的数据损坏、前端总线或 CPU 互连上的数据传输错误或其他内部错误。可能的原因可能是宇宙辐射、不稳定的电源、冷却问题、硬件损坏、运行的系统不符合规格或运气不好。

大多数错误都可以由 CPU 通过内部错误纠正机制来纠正。未纠正的错误会导致机器检查异常,从而可能终止进程或使机器崩溃。纠正的错误数量较少通常不必担心,但纠正的错误数量较多则可能预示着未来将出现故障。

当发生已更正或已恢复的错误时,x86 内核会将描述 MCE 的记录写入可通过 /dev/mcelog 设备访问的内部环形缓冲区。mcelog 从 /dev/mcelog 检索错误,将其解码为人类可读的格式,并将它们打印在标准输出上或(可选)打印到系统日志中。

如果您没有注意到任何崩溃,则可能已成功纠正错误。不过,我建议您安装mcelog以跟踪此类事件:

sudo apt-get install mcelog

事件将被记录到/var/log/mcelog。您还可以运行:

sudo mcelog --client

向守护进程查询mcelog错误。

答案2

此工具已被以下工具取代:rasdaemon

https://packages.debian.org/de/sid/rasdaemon

相关内容