参见 ECC 校正计数

参见 ECC 校正计数

我很好奇是否有某种性能计数器可以记录所需的 ECC 更正次数,也许可以将其作为内存故障的早期指标进行跟踪。我猜想理论上它可以像 tlb 的页面错误报告给操作系统一样访问?

欢迎针对 Windows 或 FreeBSD 和 Linux 的解决方案。

答案1

大多数硬件本身都会处理此日志记录。例如,HP 的 iLO 基板管理控制器会将 ECC 内存错误活动发送到其集成管理日志中。

因此,这个一般问题的一般答案是:检查硬件管理系统的功能和资源。

答案2

对于 Linux:

安装 mcelog,它会将所有错误记录到 /var/log/mcelog.log 中

您还可以查看Linux sysfs,查看EDAC文档了解相关信息:https://www.kernel.org/doc/Documentation/edac.txt

答案3

或者阅读这个页面,它讨论了使用 Linux 内核的 EDAC 来查询内存控制器,并提供了一些示例脚本:http://www.admin-magazine.com/Articles/Monitoring-Memory-Errors

更多/sys/设备/系统/edac/mc/mc0/ue_count

相关内容