我有一台运行 CEntOS 的 64 核 AMD 服务器,我在该服务器上运行一项长时间作业。在输出中间,我看到了这些行。这似乎是内存错误。这有多严重?它到底说明了什么?
Message from syslogd@heracles at Nov 7 21:00:02 ...
kernel:[Hardware Error]: MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc10410040080a13
Message from syslogd@heracles at Nov 7 21:00:02 ...
kernel:[Hardware Error]: Northbridge Error (node 4): DRAM ECC error detected on the NB.
Message from syslogd@heracles at Nov 7 21:00:02 ...
kernel:[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
答案1
在NB上
NB 是北桥。旧计算机使用许多芯片。最终这些芯片被集成在大约 3 个较大的通用芯片中(386/486 时代),后来又集成在两个芯片中。其中一个处理 CPU、RAM 和其他高速设备。另一个(“南桥”)处理慢速外围设备。
检测到 DRAM ECC 错误
动态内存只是主存储器(与通常由静态存储器构成的缓存相反)。椭圆曲线是专为检测和纠正单个位损坏而设计的内存。
您收到的消息是 NB 尝试读取一些内存,但检测到它已部分损坏。
在这种情况下,它可以关闭机器(记住老式的“奇偶校验错误:系统停止”),也可以纠正它,也可以忽略它。在这种情况下,它似乎已经纠正了它并发出了警告。
内存出现单个错误无需惊慌。这些事情时有发生。虽然很少见,但确实会发生。使用 ECC,您会收到适当的警告,而不是无法解释的崩溃或损坏的数据。
在极快的环境中(例如在芯片访问的缓存上),这种情况并不罕见。通常计算机会重试并自行纠正。如果失败,它将抛出一个麦考林。
如果这些情况持续发生:请检查 DIMM 是否安装正确。它们是否积聚了大量灰尘?它们是否通过了内存测试?等等。