“在 RAID 控制器上检测到单一位 ECC 错误”是什么意思？

Question 1

此错误与控制器上的缓存模块有关。此时，您可能需要更换 RAM 或实际的 PERC 控制器。这应该是标准保修工作。

Answer

此错误与控制器上的缓存模块有关。此时，您可能需要更换 RAM 或实际的 PERC 控制器。这应该是标准保修工作。

Question 2

RAID 控制器消息“检测到单比特错误”只是信息性的。它不是硬件错误，也不是联系制造商请求修复的适当警告。大多数公共可用内存 (RAM) 都会随机出现错误（军用硬件除外）。在无法接受这种情况的计算环境中，提供了一种解决方案：ECC。我相信这是检测单比特错误并恢复它们的最便宜和最简单的解决方案。因此，严重错误是发生的超过 1 位的错误消息。这可能需要其他技术，例如“ChipKill”（因此硬件板可以禁用不再可信的芯片）。检测到单比特错误消息通常会触发对内部硬件计数器/注册表的更新。只是为了保留一些统计数据。但它们不是证明硬件更换合理的错误。这就是 ECC 的用途。

单比特错误的数量可能会有所不同。我对这个主题感兴趣已有 16 年。我意识到这个数量呈指数增长。这个值只与另一个参数相关：系统运行的时间（通电时间）。值得一提的两个阈值是 18 个月（指数曲线上升）和 36 个月（开始出现两个比特错误）。其他参数也进行了分析，但没有任何相关性：品牌、型号、“便宜/昂贵的产品”、热量、读/写操作。关键只是时间（“通电时间”）。这也可能表明在计算硬件上采用了“计划报废”策略。因此，资本主义制度可能需要每 3 年或最多 6 年更新一次计算硬件（维护预算增加）。

您还提到了其他错误，我认为这些错误与 ECC 问题（您的问题）没有直接关系。

Answer

RAID 控制器消息“检测到单比特错误”只是信息性的。它不是硬件错误，也不是联系制造商请求修复的适当警告。大多数公共可用内存 (RAM) 都会随机出现错误（军用硬件除外）。在无法接受这种情况的计算环境中，提供了一种解决方案：ECC。我相信这是检测单比特错误并恢复它们的最便宜和最简单的解决方案。因此，严重错误是发生的超过 1 位的错误消息。这可能需要其他技术，例如“ChipKill”（因此硬件板可以禁用不再可信的芯片）。检测到单比特错误消息通常会触发对内部硬件计数器/注册表的更新。只是为了保留一些统计数据。但它们不是证明硬件更换合理的错误。这就是 ECC 的用途。

单比特错误的数量可能会有所不同。我对这个主题感兴趣已有 16 年。我意识到这个数量呈指数增长。这个值只与另一个参数相关：系统运行的时间（通电时间）。值得一提的两个阈值是 18 个月（指数曲线上升）和 36 个月（开始出现两个比特错误）。其他参数也进行了分析，但没有任何相关性：品牌、型号、“便宜/昂贵的产品”、热量、读/写操作。关键只是时间（“通电时间”）。这也可能表明在计算硬件上采用了“计划报废”策略。因此，资本主义制度可能需要每 3 年或最多 6 年更新一次计算硬件（维护预算增加）。

您还提到了其他错误，我认为这些错误与 ECC 问题（您的问题）没有直接关系。

“在 RAID 控制器上检测到单一位 ECC 错误”是什么意思？

答案1

答案2

相关内容