我在 Shuttle XPC Cube SH87R 上运行的 Ubuntu 20.04 偶尔会崩溃,该机器配备 32 GB Kingston DDR3-1600 RAM、Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz、NVIDIA GeForce GTX 1660 SUPER GPU、2 x Toshiba 3 TB HDD(mdadm 软件 RAID 1 镜像和 LVM)、一个 256 GB SSD(其中 32GB 用作交换)。
我使用带有 DKMS 的最新 Nvidia 专有 Linux 驱动程序 515.65.01,并且系统已完全更新最新更新。
我已经运行了多次广泛的 memtest86+ 内存测试,并进行了多次完整测试,没有报告任何错误。
崩溃很少发生 - 可能一两个月一次 - 为了诊断问题,我已将内核转储设置为 /var/crash。但我不确定如何使用崩溃信息,如下所示。
ls -al /var/crash
total 48
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 .
drwxr-xr-x 17 root root 4096 Nov 4 2021 ..
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 202208252224
-rw-r--r-- 1 root whoopsie 412 Aug 28 09:29 kexec_cmd
-rw-r----- 1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash
ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie 78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224
崩溃之前的 dmesg 文件内容如下:
[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check
如能提出建议将不胜感激。
回复评论:
我不确定错误的 BIOS 设置是否是罪魁祸首,因为多年来它一直使用当前 BIOS 设置稳定运行,全天候。BIOS 选项有些基础。我无法更改 CPU 电压。我可以降低 RAM 频率,但 metest86+ 没有显示任何错误。我想知道 mce 异常是指缓存内存组还是 RAM?如果是缓存,那么我猜是 CPU 累了——毕竟这是一台 2013 年的 PC,一直在不停地运行,只更换过 cmos 电池并通过 mdadm 更换过镜像磁盘。我目前倾向于微码或 CPU 电压。当我放入 Nvidia 1660 时,我确实将原来的 300w 电源替换为 500w,它最大使用 125W,而 CPU 的额定功率为 84 W。我想我可以尝试放入旧电源,看看 CPU 电压是否会升至当前 1.0 值以上。但 300w 可能略显不足,但对于 GPU 功率较小的测试,我想它会给出提示。我仍然可以花大约 90 美元购买一个新的 500w 电源。