如何确定 ras-mc-ctl 错误消息的含义?

如何确定 ras-mc-ctl 错误消息的含义?

ras-mc-ctl --errors报告结果如下:

661 2019-08-20 08:42:29 -0400 错误:更正过滤(同一区域内的一些未报告的错误)通用 CACHE 3 级通用错误,mcg mcgstatus=0,mci Corrected_error 基于阈值的错误状态:黄色,mcgcap=0x00000c09,status=0x8c400c400001110b,addr=0x3334c0000080b06,misc=0x00b501c0,tsc=0x3c6571e2bbea4,walltime=0x5d5beab4,cpuid=0x000806e9,bank=0x00000008

更常见的是:

728 2019-08-31 13:35:59 -0400 错误:已更正过滤(同一区域存在一些未报告的错误)通用 CACHE 3 级通用错误,mcg mcgstatus=0,mci Corrected_error 基于阈值的错误状态:绿色,大量已更正的缓存错误。系统运行正常,但可能很快导致未更正的错误,mcgcap=0x00000c09,status=0x8c2000c00001110b,addr=0x2b6b100000374cf,misc=0x0001bdc0,tsc=0x376c4b0d8828,walltime=0x5d6aafff,cpuid=0x000806e9,bank=0x00000008

这些信息实际上意味着什么?人们可以/应该对它们做什么?

附加信息:

  • 这是一台英特尔 NUC 7i7BNH,配备 16 Gb 内存、500G SSD 和 4K 显示器。
  • 它运行 Ubuntu 18.0,并带有最近的“apt upgrade”。
  • BIOS 已更新至最近的七月版本。
  • 我没有进行任何硬件修改。

lshw -C memory显示:

*-firmware                
    description: BIOS
    vendor: Intel Corp.
    physical id: 0
    version: BNKBL357.86A.0080.2019.0725.1139
    date: 07/25/2019
    size: 64KiB
    capacity: 8128KiB
    capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int14serial int17printer acpi usb biosbootspecification uefi
*-memory
    description: System Memory
    physical id: 28
    slot: System board or motherboard
    size: 16GiB
    *-bank:0
        description: SODIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
        product: CMSO16GX4M1A2133C15
        vendor: AMI
        physical id: 0
        serial: 00000000
        slot: ChannelA-DIMM0
        size: 16GiB
        width: 64 bits
        clock: 2133MHz (0.5ns)
    *-bank:1
        description: [empty]
        physical id: 1
        slot: ChannelB-DIMM0
*-cache:0
    description: L1 cache
    physical id: 2d
    slot: L1 Cache
    size: 128KiB
    capacity: 128KiB
    capabilities: synchronous internal write-back unified
    configuration: level=1
*-cache:1
    description: L2 cache
    physical id: 2e
    slot: L2 Cache
    size: 512KiB
    capacity: 512KiB
    capabilities: synchronous internal write-back unified
    configuration: level=2
*-cache:2
    description: L3 cache
    physical id: 2f
    slot: L3 Cache
    size: 4MiB
    capacity: 4MiB
    capabilities: synchronous internal write-back unified
    configuration: level=3
*-memory UNCLAIMED
    description: Memory controller
    product: Sunrise Point-LP PMC
    vendor: Intel Corporation
    physical id: 1f.2
    bus info: pci@0000:00:1f.2
    version: 21
    width: 32 bits
    clock: 33MHz (30.3ns)
    capabilities: bus_master
    configuration: latency=0
    resources: memory:dc244000-dc247fff

检测结果:

运行 memtest86 产生了一些有趣的结果:

  • 大约 5 分钟后,它显示英特尔标志并重新启动。
  • 同样的事情再次发生,但我设法先记录了大部分消息。
  • 第三次,它完成了一次完整的飞越(约 45 分钟),然后在第二次飞越几分钟后再次坠毁。
  • 我会让它继续运行,但我怀疑它能否通过 4 次。

第二次尝试的结果是:

Test 4: Addr: 33090D380 Expected 08080808 Actual: 18080808 CPU:2
Test 4: Addr: 33090D38C Expected 08080808 Actual: 08080818 CPU:2
Test 4: Addr: 33090D390 Expected 08080808 Actual: [???]
Test 4: Addr: 33090D394 Expected 08080808 Actual: [???]

第三次,通过了第一遍,结果显示:

截屏

请注意,地址与上次不同(尽管两次都有 4 个错误)。

答案1

https://www.memtest86.com/并免费下载/运行它们memtest来测试你的记忆力。至少完成一次所有 4/4 测试以确认记忆力良好。这将需要很多小时才能完成。

更新#1:

memtest失败的。

您的 16G RAM 棒要么有缺陷,要么主板上的缓存内存有问题。尝试重新安装 16G RAM 棒,看看是否有帮助。仅供参考:为了获得最佳内存速度,最好使用两个 8G RAM 棒,而不是一个 16G RAM 棒。这也使解决内存问题变得更容易。

检查以确保您的 CPU 没有超频,或者您的 BIOS 中没有启用内存 XMP。

检查您的 BIOS 版本,sudo dmidecode -s bios-version然后访问制造商的网站并查找更新的 BIOS。

更新#1:

用户拥有最新的 BIOS,版本:BNKBL357.86A.0080.2019.0725.1139,日期:2019 年 7 月 25 日

相关内容