CPU#X 卡住了 22 秒!

CPU#X 卡住了 22 秒!

我的计算机遇到不同的硬件错误(见下图,不幸的是我的经验是它们没有被写入磁盘)。它们在通过 LAN 传输数据时最常出现,我无法使用stress-ng 生成它们。

该计算机还出色地通过了 24 小时内存测试(大约 11 次通过)。其处理器为A10-9700 APU。 PSU 为 beQuiet Pure 750 W,计算机已清洁,重新涂抹导热膏。这是第二个PSU(PSU的改变没有带来任何改进,之前它有一个预算为500W的Chieftec)。

剩下的就在截图里了。我已经将BIOS更新到F24版本,没有任何改进(从来没有版本不支持CPU)。

当专用于集成显卡的内存设置为“自动”时,它会崩溃(重新启动)或吐出 mce 错误:

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091048] [Hardware Error]: Corrected error, no action required.

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091095] [Hardware Error]: CPU:0 (15:65:1) MC1_STATUS[-|CE|MiscV|-|-|-|-]: 0x9800000000130151

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091160] [Hardware Error]: MC1 Error: Decoder predecode buffer parity error.

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091210] [Hardware Error]: cache level: L1, tx: INSN, mem-tx: IRD

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091302] [Hardware Error]: Corrected error, no action required.

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091344] [Hardware Error]: CPU:0 (15:65:1) MC5_STATUS[-|CE|-|-|-|-|-]: 0x90000000000c0e0f

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091404] [Hardware Error]: MC5 Error: DE error occurred.

Message from syslogd@HOSTNAMEHERE at Mar  1 16:37:14 ...
 kernel:[31135.091446] [Hardware Error]: cache level: L3/GEN, mem/io: GEN, mem-tx: GEN, part-proc: GEN (no timeout)

(以不同的方式)每 20-60 分钟一次 - 随机重新启动,没有日志信息。当内核为 4.19 时也会发生同样的情况(Debian buster:4.19.0-14-amd64)。 amdgpu 图形驱动程序当前处于“nomodeset”状态。

到目前为止,我从未见过“cpu 卡住”,但出现了 mce 错误:

  • (如所述)在内核 4.19 中每 20-30 分钟一次
  • 在内核 5.9 和 5.10 中每 2-10 小时一次

在这两种情况下都会重新启动,每次重新启动(通常)都会发生 2-4 个 mce 类型的错误会话。

我应该怎么办?

在此输入图像描述

相关内容