如何监控 RAM 中是否存在由 ECC 纠正的错误?处理器为Intel Xeon(Ivy Bridge)处理器,操作系统为Scientific Linux 6.3。在以前的系统上,我有一个 AMD CPU,在该系统上我可以使用 edac-util 来获取此信息,它还会向内核日志发出警报。
答案1
从 Linux 内核版本 3.17 开始,可以使用ie31200_edac
驱动程序监控 E3 Xeon 上的 ECC 错误,该驱动程序由这次提交。这使用标准 EDAC 接口,因此可以使用 列出错误edac-util
。
更详细一点:
sudo modprobe ie31200-edac
加载驱动程序,这将导致类似的行
[ 14.635299] EDAC MC: Ver: 3.0.0
[ 14.637898] EDAC MC0: Giving out device to module ie31200_edac controller IE31200: DEV 0000:00:00.0 (POLLED)
出现在内核日志中(在 C216 Haswell 系统上);然后
edac-util
将报告任何错误。
sb_edac
使用或模块支持 Xeon D、E5 和 E7 内存控制器skx_edac
。
答案2
据我所知,sb_edac 模块仅支持 E5 Xeon