ras-mc-ctl --errors
报告结果如下:
661 2019-08-20 08:42:29 -0400 错误:更正过滤(同一区域内的一些未报告的错误)通用 CACHE 3 级通用错误,mcg mcgstatus=0,mci Corrected_error 基于阈值的错误状态:黄色,mcgcap=0x00000c09,status=0x8c400c400001110b,addr=0x3334c0000080b06,misc=0x00b501c0,tsc=0x3c6571e2bbea4,walltime=0x5d5beab4,cpuid=0x000806e9,bank=0x00000008
更常见的是:
728 2019-08-31 13:35:59 -0400 错误:已更正过滤(同一区域存在一些未报告的错误)通用 CACHE 3 级通用错误,mcg mcgstatus=0,mci Corrected_error 基于阈值的错误状态:绿色,大量已更正的缓存错误。系统运行正常,但可能很快导致未更正的错误,mcgcap=0x00000c09,status=0x8c2000c00001110b,addr=0x2b6b100000374cf,misc=0x0001bdc0,tsc=0x376c4b0d8828,walltime=0x5d6aafff,cpuid=0x000806e9,bank=0x00000008
这些信息实际上意味着什么?人们可以/应该对它们做什么?
附加信息:
- 这是一台英特尔 NUC 7i7BNH,配备 16 Gb 内存、500G SSD 和 4K 显示器。
- 它运行 Ubuntu 18.0,并带有最近的“apt upgrade”。
- BIOS 已更新至最近的七月版本。
- 我没有进行任何硬件修改。
lshw -C memory
显示:
*-firmware
description: BIOS
vendor: Intel Corp.
physical id: 0
version: BNKBL357.86A.0080.2019.0725.1139
date: 07/25/2019
size: 64KiB
capacity: 8128KiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: 28
slot: System board or motherboard
size: 16GiB
*-bank:0
description: SODIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: CMSO16GX4M1A2133C15
vendor: AMI
physical id: 0
serial: 00000000
slot: ChannelA-DIMM0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: [empty]
physical id: 1
slot: ChannelB-DIMM0
*-cache:0
description: L1 cache
physical id: 2d
slot: L1 Cache
size: 128KiB
capacity: 128KiB
capabilities: synchronous internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 2e
slot: L2 Cache
size: 512KiB
capacity: 512KiB
capabilities: synchronous internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 2f
slot: L3 Cache
size: 4MiB
capacity: 4MiB
capabilities: synchronous internal write-back unified
configuration: level=3
*-memory UNCLAIMED
description: Memory controller
product: Sunrise Point-LP PMC
vendor: Intel Corporation
physical id: 1f.2
bus info: pci@0000:00:1f.2
version: 21
width: 32 bits
clock: 33MHz (30.3ns)
capabilities: bus_master
configuration: latency=0
resources: memory:dc244000-dc247fff
检测结果:
运行 memtest86 产生了一些有趣的结果:
- 大约 5 分钟后,它显示英特尔标志并重新启动。
- 同样的事情再次发生,但我设法先记录了大部分消息。
- 第三次,它完成了一次完整的飞越(约 45 分钟),然后在第二次飞越几分钟后再次坠毁。
- 我会让它继续运行,但我怀疑它能否通过 4 次。
第二次尝试的结果是:
Test 4: Addr: 33090D380 Expected 08080808 Actual: 18080808 CPU:2
Test 4: Addr: 33090D38C Expected 08080808 Actual: 08080818 CPU:2
Test 4: Addr: 33090D390 Expected 08080808 Actual: [???]
Test 4: Addr: 33090D394 Expected 08080808 Actual: [???]
第三次,通过了第一遍,结果显示:
请注意,地址与上次不同(尽管两次都有 4 个错误)。
答案1
去https://www.memtest86.com/并免费下载/运行它们memtest
来测试你的记忆力。至少完成一次所有 4/4 测试以确认记忆力良好。这将需要很多小时才能完成。
更新#1:
memtest
失败的。
您的 16G RAM 棒要么有缺陷,要么主板上的缓存内存有问题。尝试重新安装 16G RAM 棒,看看是否有帮助。仅供参考:为了获得最佳内存速度,最好使用两个 8G RAM 棒,而不是一个 16G RAM 棒。这也使解决内存问题变得更容易。
检查以确保您的 CPU 没有超频,或者您的 BIOS 中没有启用内存 XMP。
检查您的 BIOS 版本,sudo dmidecode -s bios-version
然后访问制造商的网站并查找更新的 BIOS。
更新#1:
用户拥有最新的 BIOS,版本:BNKBL357.86A.0080.2019.0725.1139,日期:2019 年 7 月 25 日