知道这个错误E211 SBE LOG DISABLE DIMM6
意味着什么吗?有人遇到过这种情况吗?
我知道这听起来很明显,这是我记忆的第六库,客人什么:
- 我已经更改了 RAM 模块的顺序。同一 DIMM 插槽上出现相同错误
- Dell 已将主板更换为新主板。RAM 模块以不同的顺序连接,错误相同。已使用 OMSA livecd 清理日志。
- 启动到 memtest+ 什么都没显示
- 该主板上所有可能的固件都是最新的
可能是另一个组件或固件问题?
戴尔也在查看,但在 OMSA 创建的系统日志中没有发现任何内容。
一个明显的症状是,错误在运行一小时后开始出现。此硬件上的操作系统是 ESXi 5.0.1。此错误没有导致系统崩溃。
编辑:我已经通过新主板上的(OMSA liveCD)清理了 BIOS 日志/opt/dell/dset/clearesm.sh
,重新启动到 memtest+(仍在 livecd 上),20 分钟后显示屏显示错误消息,而 memtest 没有发现任何错误......
编辑2: ./dcicfg32 command=clearmemfailures
Bios 上的 BCM 清除(开机自检时按 Control + E -> 系统事件日志菜单 -> 清除系统事件日志)似乎都无法解决问题。操作 20 分钟后,错误再次出现。
编辑3:MOBO 已更改(见上文),但两者都有相同的错误。交换内存位置或使用其他 2950 服务器的内存不会对错误产生任何影响。
答案1
这表明 DIMM 6 上出现了单比特错误 (SBE),并且出现频率很高,以至于系统在重新启动之前不会再记录该错误。(请参阅https://support.quest.com/SolutionDetail.aspx?id=SOL60022作为背景。
更换主板后出现相同错误,这有点令人困惑,但更换的主板可能与第一块主板有相同的缺陷。由于您移动了 DIMM,问题并没有跟随 DIMM,所以我不太可能怀疑 DIMM。
我会为该服务器使用适当的 Dell MpMemory 诊断程序,而不是 memtest+。Dell 工具将了解任何特定于 Dell 的硬件功能。
答案2
一个问题,当您说“尝试清理主板日志”时,您指的是 BMC(硬件日志)的日志,还是重置内存错误计数器,如果您说的是 BMC,那么您需要做的只是清除 SBE 计数器,至少,要确保这不是错误警告。
要清除 SBE 日志计数器,您可以从 LIveCD 运行以下命令“./dcicfg32 command=clearmemfailures”。