“在 RAID 控制器上检测到单一位 ECC 错误”是什么意思?

“在 RAID 控制器上检测到单一位 ECC 错误”是什么意思?

我有一台 Dell T7600,配有 Perc H710P RAID 控制器和 4 个连接的 3TB 驱动器。在过去的几个月里,RAID 控制器在启动时会间歇性地报告错误:“未找到启动设备”、“基本端口上的适配器没有响应”,磁盘经常报告丢失或故障。

我已经更换了 RAID 控制器、4 个硬盘以及系统主板。

更换主板并重启几次后,我收到错误

Single bit ECC errors were detected on the RAID controller.
Please contact technical support to resolve this issue.

重启了大约 20 次之后,我再也没有看到 ECC 错误。系统看起来一切正常,只是当系统完全空闲时,磁盘风扇有时会开始全速旋转,直到我重启才会停止。

ECC 错误是否出现在 RAID 控制器的内存中?或者,RAID 控制器是否映射到系统内存中,并且 ECC 错误确实出现在系统内存中?或者,ECC 错误是否出现在 RAID 控制器中的 1GB 缓存中?

答案1

此错误与控制器上的缓存模块有关。此时,您可能需要更换 RAM 或实际的 PERC 控制器。这应该是标准保修工作。

答案2

RAID 控制器消息“检测到单比特错误”只是信息性的。它不是硬件错误,也不是联系制造商请求修复的适当警告。大多数公共可用内存 (RAM) 都会随机出现错误(军用硬件除外)。在无法接受这种情况的计算环境中,提供了一种解决方案:ECC。我相信这是检测单比特错误并恢复它们的最便宜和最简单的解决方案。因此,严重错误是发生的超过 1 位的错误消息。这可能需要其他技术,例如“ChipKill”(因此硬件板可以禁用不再可信的芯片)。检测到单比特错误消息通常会触发对内部硬件计数器/注册表的更新。只是为了保留一些统计数据。但它们不是证明硬件更换合理的错误。这就是 ECC 的用途。

单比特错误的数量可能会有所不同。我对这个主题感兴趣已有 16 年。我意识到这个数量呈指数增长。这个值只与另一个参数相关:系统运行的时间(通电时间)。值得一提的两个阈值是 18 个月(指数曲线上升)和 36 个月(开始出现两个比特错误)。其他参数也进行了分析,但没有任何相关性:品牌、型号、“便宜/昂贵的产品”、热量、读/写操作。关键只是时间(“通电时间”)。这也可能表明在计算硬件上采用了“计划报废”策略。因此,资本主义制度可能需要每 3 年或最多 6 年更新一次计算硬件(维护预算增加)。

您还提到了其他错误,我认为这些错误与 ECC 问题(您的问题)没有直接关系。

相关内容