ECC CE（可纠正错误）每 5 分钟准确发生一次

Question 1

当我在 PowerEdge R815 中安装新的 DIMM 时，也出现了类似的问题。我以为其中一个 DIMM 坏了，但不知道 32 个 DIMM 中的哪一个坏了。结果发现，硬件的 LCD 面板（和硬件日志）报告了故障，并提供了 DIMM 插槽 ID。当我重新安装 DIMM 时，错误消失了 —— 所以这毕竟不是可以通过 ECC 纠正的错误。

Answer

当我在 PowerEdge R815 中安装新的 DIMM 时，也出现了类似的问题。我以为其中一个 DIMM 坏了，但不知道 32 个 DIMM 中的哪一个坏了。结果发现，硬件的 LCD 面板（和硬件日志）报告了故障，并提供了 DIMM 插槽 ID。当我重新安装 DIMM 时，错误消失了 —— 所以这毕竟不是可以通过 ECC 纠正的错误。

Question 2

将 csrow 和通道映射到物理插槽/DIMM 并尽快更换非常重要。根据我的经验，您将开始遇到越来越多的错误，但这一切都取决于芯片完全损坏的速度，我见过它从每天出现几个错误发展到第二天就死机，或者可能会持续几个月或更长时间（这完全取决于您的工作量）。最终，您的控制台将充满错误，最终导致 UE（不可纠正错误），您的服务器将崩溃，DIMM 将无法使用。

另一件重要的事情是，如果您的 BIOS（大多数服务器 BIOS 都会这样做）检测到多个位故障，它可能会禁用该 DIMM 插槽。不要擦除/删除或重置 BIOS 中已启用的 DIMM，否则您的服务器可能根本无法启动（因为没有 POST），除非您记得哪个 DIMM 被标记为坏的，否则您将不得不一个接一个地移除芯片，直到它启动才能找出哪个是坏的（在公司或数据中心环境中非常麻烦）。此外，如果更换已标记为坏的 DIMM，您可能必须重新启用它或从 BIOS 中擦除坏 DIMM 的记录才能识别它。

Answer

将 csrow 和通道映射到物理插槽/DIMM 并尽快更换非常重要。根据我的经验，您将开始遇到越来越多的错误，但这一切都取决于芯片完全损坏的速度，我见过它从每天出现几个错误发展到第二天就死机，或者可能会持续几个月或更长时间（这完全取决于您的工作量）。最终，您的控制台将充满错误，最终导致 UE（不可纠正错误），您的服务器将崩溃，DIMM 将无法使用。

另一件重要的事情是，如果您的 BIOS（大多数服务器 BIOS 都会这样做）检测到多个位故障，它可能会禁用该 DIMM 插槽。不要擦除/删除或重置 BIOS 中已启用的 DIMM，否则您的服务器可能根本无法启动（因为没有 POST），除非您记得哪个 DIMM 被标记为坏的，否则您将不得不一个接一个地移除芯片，直到它启动才能找出哪个是坏的（在公司或数据中心环境中非常麻烦）。此外，如果更换已标记为坏的 DIMM，您可能必须重新启用它或从 BIOS 中擦除坏 DIMM 的记录才能识别它。

ECC CE（可纠正错误）每 5 分钟准确发生一次

答案1

答案2

相关内容