Dell PowerEdge C1100 MRC 故障 DIMM 已更换,新内存在之前发生故障的插槽中无法识别

Dell PowerEdge C1100 MRC 故障 DIMM 已更换,新内存在之前发生故障的插槽中无法识别

Dell PowerEdge C1100,BIOS 版本 DS993B22,通过 BMC IPMI 看到,所有 18 个内存插槽均装有 4 GB 模块。

发生了以下内存错误:

MRC Event: Memory sensor, MRC Warning(1B.01): Lane failures during Dqs clean-up!
MRC Event: Memory sensor, MRC Warning(1C): Hardware Memtest failed and the DIMM is disabled. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 0.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 1.
MRC Event: Memory sensor, MRC Warning(0B): DIMM was disabled due to MemTest errors. Node 1, Channel F, DIMM 2.

我用已知良好的模块替换了通道 F、DIMM 0、1 和 2 模块,然后启动了系统。BIOS 和系统日志均未显示内存问题,但服务器在 BIOS 和 POST 中仅显示 72 GB 内存。

我关闭了服务器,并用已知良好的模块替换了所有通道 D 和通道 E 模块,以便 CPU1 的所有模块都相同。重新启动服务器,问题依旧,BIOS 和 POST 中仅显示 72 GB。

BIOS 的内存模式部分显示Independent模式已设置。在上述内存错误发生之前,系统确实有完全正常运行的 96 GB。

是否有某个设置可以启用“已禁用”的插槽?我无法在 BIOS 或 BMC 屏幕中找到任何此类设置。

这些是该问题的 SEL 事件数据代码,有些代码出现多次,但每个插槽出现一次:

AF2900 WARN_DQS_TEST_MINOR_CLEANUP
AF2B60 WARN_MEM_TEST
AF1760 WARN_MEM_TEST_DIMM_DISABLE
AF1764 WARN_MEM_TEST_DIMM_DISABLE
AF1768 WARN_MEM_TEST_DIMM_DISABLE

如何解码 PowerEdge C1100、C2100、C6100、C6105 和 C6145 的 ECC 内存错误的原始数据戴尔提供的工具无法解码这些错误。

作为参考,以下是Dell PowerEdge C1100 硬件用户手册@ Dell.com

C1100 系统板上的内存插槽位置

答案1

这个问题最终被证明是过时的文档和用户错误的结合造成的。

每个 C1100 有 18 个内存插槽。每个插槽 4 GB RAM。

18 * 4 = 72

这些服务器只有 72 GB 的 RAM,而不是 96 GB。由于服务器显示更换 RAM 后 72 GB 可以运行,因此一切正常。

相关内容