dmesg 中弹出“硬件错误”

dmesg 中弹出“硬件错误”

我偶尔(一个多月内两次)会看到令人担忧的错误,例如:

[757706.327447] mce: [Hardware Error]: Machine check events logged
[757706.327450] [Hardware Error]: Corrected error, no action required.
[757706.327453] [Hardware Error]: CPU:1 (19:21:0) MC20_STATUS[-|CE|MiscV|-|-|-|-|-|-]: 0x8948000000282504
[757706.327457] [Hardware Error]: IPID: 0x0000000000000000
[757706.327459] [Hardware Error]: Bank 20 is reserved.
[757706.327459] [Hardware Error]: cache level: RESV, tx: DATA

我还看到一堆(可能不相关的):

[725795.673933] audit: type=1400 audit(1664229606.644:1910): apparmor="DENIED" operation="capable" profile="/usr/sbin/cupsd" pid=1534043 comm="cupsd" capability=12  capname="net_admin"
[725795.733042] audit: type=1400 audit(1664229606.700:1911): apparmor="DENIED" operation="open" profile="/usr/sbin/cups-browsed" name="/proc/sys/net/ipv6/conf/all/disable_ipv6" pid=1534044 comm="cups-browsed" requested_mask="r" denied_mask="r" fsuid=0 ouid=0

该机器是基于“AMD Ryzen 9 5950X 16 核处理器”的自建服务器,具有“MemTotal:32797136 kB”(如果需要,可以提供更多详细信息)和运动功能。

mcon@ikea:~$ uname -a
Linux ikea 5.19.0-1-amd64 #1 SMP PREEMPT_DYNAMIC Debian 5.19.6-1 (2022-09-01) x86_64 GNU/Linux

我应该检查什么?

答案1

mce: [Hardware Error]: Machine check events logged

mce,或机器检查异常,是CPU检测到硬件错误或故障时产生的错误。

机器检查异常 (MCE) 可能由于多种原因而发生,包括电源电压异常或超出规格、宇宙辐射翻转内存 DIMM 或 CPU 中的位、或其他杂项故障,包括故障软件触发硬件错误。

[Hardware Error]: Corrected error, no action required.

显然这不是致命的,可以由 CPU/内核自动修复;但是很少其他案例第五代 Ryzen正在做同样,所以我建议现在检查 CPU,例如运行 MPrime 几个小时,看看是否出现任何问题。

要查看有关记录的硬件错误的更多详细信息,您可以rasdaemon按照建议使用,应该在 Debian 存储库中可用,或者您可以尝试一些其他 MCE 解码工具,例如这些

相关内容