我最近收到一条来自我管理的 PE 905 的警报:I1912 SEL Full
。我通过 DRAC Web UI 检查了 SEL,发现以下消息今天重复了约 50 次:
"The disk drive bay battery has failed"
几秒钟后出现了相同的故障清除消息(不幸的是,在我抄下其确切措辞之前,我清除了 SEL 以查看是否仍然收到该消息)。
问题是我甚至没有意识到湾有电池。(它没有,是吗?)
盒子里唯一的 RAID 控制器是 PERC 6/i,其电池报告良好。我不是看不到任何 ROMB 错误(也没有收到警报),也没有任何其他表明 PERC 电池坏了的信息。
不用说,我谷歌搜索了错误消息,但我能找到的最好的信息是一篇日文的交叉发布文章。通过 G 翻译,作者似乎表示该消息可能表示 RAID 电池故障或即将发生的控制器故障,据戴尔称。
看起来他更换了控制器和电池,从而解决了问题。但两者都需要更换吗?(我的预算很紧张,而且我们不再为这台机器提供戴尔服务/支持)。
关于这个主题只有一篇帖子,我只是想知道是否有人可以进一步解释这个错误。我很乐意提供任何日志等,但是除了 SEL 中的那条消息之外,其他一切都看起来都很好。事实上,自从清除日志以来,过去一个小时内没有出现这个错误。
谢谢!
答案1
看起来原始错误消息是新消息的前兆,新消息确实会在 Google 中显示一些结果。经过一个安静的夜晚,我开始在系统日志中收到以下消息:
The storage battery has failed.
The storage battery is operating normally.
这与昨晚展现的模式相同,但传达的信息不同。
A戴尔社区维基页面报告错误的详细描述如下:
PERC RAID 控制器电池可能由于热异常而出现故障。
虽然这当然可能是局部热问题,但目前报告的系统板温度为 26 摄氏度,因此这不是系统范围的热问题。
PERC 5/i 上也报告了类似的问题戴尔的邮件列表之一这并不是由于热原因,而可能是固件损坏或老旧。(我的固件是最新的)。
就我而言,再次清除 SEL 后,控制器的电池一切正常,日志中没有出现新事件。(通过 OpenManage 查看)。
我启动了控制器电池的学习周期,几乎立即报告 OM 内电池性能下降。此后,日志又开始充满相同的消息:
根据这些新信息,我确信问题出在电池上。今天晚些时候,当我能到达服务器所在地时,我会更换电池。
我的假设是,电池开始进入记忆周期,此时电池开始被报告为坏了。也许电池在充电时会发热,因此导致在发热和冷却过程中出现重复的消息。
我正在回答我自己的问题,因为我希望这可以帮助任何搜索我原始错误消息的人(在搜索中没有产生任何英文结果)。
幸运的是,控制器电池损坏对我来说不是问题,因为有问题的机器连接到 SAN,而 PERC 仅负责本地操作系统卷,该卷不进行大量写入。但是,需要注意的一点是,如果您确实依赖写入缓存,并且有多个使用相同电池类型的 PERC 控制器,请至少准备一块备用电池。
更新: 出于科学的考虑,我让电池的学习周期完成。虽然花了一段时间,但成功完成了,并且没有向 ESM Log/SEL 添加新的错误消息。
当然,电池仍然是可疑的并且将被更换,但我建议任何遇到我所描述的症状的人尝试启动学习周期。
答案2
我在几台 Dell-PowerEdge 系统上也看到过类似的现象,这些系统的电池已经使用了大约五年。
我看到的是虚拟磁盘缓存正在重复地从写回切换到写通。
当我致电 Dell 支持部门询问此事时,他们告诉我,这可能是电池电量不足的迹象。有一种情况是,电池在 omsa 中仍报告为“正常”,但电量水平已不再足够。您可以通过 omsa 命令行进行检查:
omconfig storage controller action=exportlog controller=0
这将创建一个日志文件。
在 Linux 上:/var/log/lsi_DDMM.log(日和月)。这是一个 ASCII 文件(DOS 格式),您可以在其中查看有关电池的详细信息。