mcelog 和 HP BL460:了解 DIMM 错误

mcelog 和 HP BL460:了解 DIMM 错误

正如标题所述,在我的一台 BL460 上,我安装了 RedHat,并且 mcelog deamon 在 /var/log/messages 中反复出现一条消息,告诉我:

mcelog:已更正页面 61a5dd000 上的内存错误,超过阈值 24 小时内 10 个:24 小时内 10 个 mcelog:位置 SOCKET:1 CHANNEL:1 DIMM:0 [] mcelog:离线页面 61a5dd000 mcelog:离线页面 61a5dd000 失败:输入/输出错误

我有两个问题:

  1. 该消息是否“正常”,我的意思是系统发现错误,纠正它们,然后在所有纠正之后,/var/log/messages 中应该不再有这些错误?(即使这意味着某些 dimm 模块存在一些错误)

  2. 我尝试找到 DIMM 模块,但找不到。我找到了 BL 的 PROC 1 和 CHANNEL 1 对。但在 BL460 中,DIMM 还是列为 1 到 6。我假设 DIMM:0 是物理 DIMM 1,但在移除它之后,消息仍然出现在 /var/log/messages 中。(然后我移除了 1 和 2 进行检查,因为两者都是 CHANNEL1,但仍然相同)我如何知道它是哪个物理 DIMM?

谢谢 :)

答案1

在这种情况下,您应该安装 HPE 管理代理。我没有在适当的 HPE 服务器设备上使用 mcelog。

看:HP ProLiant DL380e Gen8 服务器 - SPP 使用

对于 RHEL/CentOS,这些驱动程序管理系统健康并向操作系统报告。当然,您也可以直接从 ILO 获取此信息。

示例输出:

hpasmcli> show dimm
DIMM Configuration
------------------
Processor #:                     1
Module #:                     1
Present:                      Yes
Form Factor:                  9h
Memory Type:                  DDR3(18h)
Size:                         8192 MB
Speed:                        1866 MHz
Supports Lock Step:           No
Configured for Lock Step:     No
Status:                       Ok

Processor #:                     1
Module #:                     4
Present:                      Yes
Form Factor:                  9h
Memory Type:                  DDR3(18h)
Size:                         8192 MB
Speed:                        1866 MHz
Supports Lock Step:           No
Configured for Lock Step:     No
Status:                       Ok

或者通过国际劳工组织......

在此处输入图片描述

相关内容