我已经在 arch linux 上运行一个全新的系统大约三周了,昨晚它突然重启了。
重启时 journalctl 中没有关机/停止,所以我很确定这与硬件有关,而不是用户空间程序或 acpi。
journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.
然后,在启动过程中,
Jul 01 06:24:46 euclid kernel: .... node #0, CPUs: #1 #2 #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel: #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15
当我尝试运行 mcelog 时,我得到了
0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead.
CPU is unsupported
我怀疑要么是 1) 我为这个系统选择了太小的 PSU,要么是 2) 某处过热。
我运行的所有 PSU 计算器都建议我使用 750W,所以我选择了 850W 的 PSU。不过,现在我正在考虑升级到 1000W 的 PSU。
我的问题是,我该如何解释该机器检查事件?我猜它特定于我的 CPU?AMD 是否提供了任何可以帮助我解码该错误的信息?而且,我如何知道我是否因过热而重新启动?我在 BIOS(ASUS)中找不到任何事件日志。
编辑:更多细节
处理器:Ryzen 7 1700
主板:华硕 Prime x370-Pro
内存:G.SKILL Trident Z(4x 8GB)3200(F4-3200C16D-16GTZKW)
电源:EVGA SuperNOVA 850 P2 80+ PLATINUM 850W
显卡:GTX 1080-TI x2
句柄 0x0000,DMI 类型 0,24 字节
BIOS 信息
供应商:American Megatrends Inc.
版本:0604
发布日期:2017 年 4 月 6 日
不可超频。原始 BIOS 设置。
它稳定运行了几个星期。活动开始前几天我确实添加了 3 个硬盘。
编辑:同样的事故似乎再次发生
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
答案1
这似乎是 CPU 硬件问题。在 AMD 社区论坛 (https://community.amd.com/thread/215773) 建议禁用 SMT 或 OpCache 作为解决方法,直到问题得到解决。
我在 BIOS 中禁用了 OpCache,启动过程中的 mce: [硬件错误] 消息就消失了。我有两个相同的系统,它们都存在同样的死机/重启问题。到目前为止,这两个系统都没有死机。