正如标题所述,在我的一台 BL460 上,我安装了 RedHat,并且 mcelog deamon 在 /var/log/messages 中反复出现一条消息,告诉我:
mcelog:已更正页面 61a5dd000 上的内存错误,超过阈值 24 小时内 10 个:24 小时内 10 个 mcelog:位置 SOCKET:1 CHANNEL:1 DIMM:0 [] mcelog:离线页面 61a5dd000 mcelog:离线页面 61a5dd000 失败:输入/输出错误
我有两个问题:
该消息是否“正常”,我的意思是系统发现错误,纠正它们,然后在所有纠正之后,/var/log/messages 中应该不再有这些错误?(即使这意味着某些 dimm 模块存在一些错误)
我尝试找到 DIMM 模块,但找不到。我找到了 BL 的 PROC 1 和 CHANNEL 1 对。但在 BL460 中,DIMM 还是列为 1 到 6。我假设 DIMM:0 是物理 DIMM 1,但在移除它之后,消息仍然出现在 /var/log/messages 中。(然后我移除了 1 和 2 进行检查,因为两者都是 CHANNEL1,但仍然相同)我如何知道它是哪个物理 DIMM?
谢谢 :)
答案1
在这种情况下,您应该安装 HPE 管理代理。我没有在适当的 HPE 服务器设备上使用 mcelog。
看:HP ProLiant DL380e Gen8 服务器 - SPP 使用
对于 RHEL/CentOS,这些驱动程序管理系统健康并向操作系统报告。当然,您也可以直接从 ILO 获取此信息。
示例输出:
hpasmcli> show dimm
DIMM Configuration
------------------
Processor #: 1
Module #: 1
Present: Yes
Form Factor: 9h
Memory Type: DDR3(18h)
Size: 8192 MB
Speed: 1866 MHz
Supports Lock Step: No
Configured for Lock Step: No
Status: Ok
Processor #: 1
Module #: 4
Present: Yes
Form Factor: 9h
Memory Type: DDR3(18h)
Size: 8192 MB
Speed: 1866 MHz
Supports Lock Step: No
Configured for Lock Step: No
Status: Ok
或者通过国际劳工组织......