Centos7 Supermicro 服务器上的多核过载超过 100%

Centos7 Supermicro 服务器上的多核过载超过 100%

我在超微 H8QG6 主板上运行 Centos 7 (3.10.0-514.26.2.el7.x86_64),该主板有 4 个 AMD 6276 CPU(16 核),总共 64 个核。我用它来进行科学计算,通常一切都运行顺利,就像 htop 中一样第一张图片然后,突然间,htop 开始报告单个 CPU 使用率超过 1000%,如下所示第二张图片,计算机几乎无响应。顺便说一句,几乎每个进程似乎都使 CPU 超载:甚至 htop 本身也报告了 1600% 的负载!!!同时这些错误出现在 journalctl 中: perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37 但我无法确定它们是奇怪行为的症状还是原因。有人知道发生了什么吗?非常感谢!

更新:我安装了 ipmitool 并启动了 ipmievd 守护进程。问题一出现,journalctl 中就出现了以下内容:

ipmievd[7567]: Memory sensor - Correctable ECC (@DIMMD1(CPU3))

该问题是否可能与故障的内存模块有关?

答案1

罪魁祸首确实是内存模块故障。当内存错误开始出现在日志中时,CPU 使用率出现了异常峰值。模块已被识别并更换,问题现已解决。

相关内容