情况
- 最近从 2.2 升级到 3.1(1e)。
- 自升级以来,每天早上 6:51(UTC+1),我安装的 B200 系列刀片服务器中就会有 0 到 3 个(共约 60 个)出现故障。
- 总是相同的三个刀片,全部位于不同的底盘中。
- 故障表现为硬挂起,SEL 中出现“CPU 预测故障”和“CATERR_N”消息。
- 对刀片进行电源循环可使其恢复服务(至少直到下次故障)。
- UCSM 中没有与一天中的这个时间相近的一次性或重复性计划。
- 思科 TAC 正在调查,但并未解释为何故障每天都在同一时间发生。
我的研究和怀疑
- 我有一个理论:这些都是真正的硬件问题,只是通过固件升级以某种方式暴露出来了。
- 其中简要提到了“传感器扫描管理器”故障排除指南,但我找不到关于它做什么或如何监控它的任何详细信息。
- 我几乎排除了环境原因。我们的电力和温度监测器当时没有显示任何异常。我们不在地震带 :-)
问题
为什么故障每天都会在同一时间发生?
答案1
事实证明固件版本 3.1(1e) 中的一个错误(该链接需要 Cisco 帐户)。它被描述为涉及 VIC 1340 和调试中断的“罕见事件”。
之所以每天都在同一时间发生这种情况,是因为——
- 内存占用严重,随后
- 跑步
lspci
,
这正是 Puppet 每天早上所做的事情(我们每天只运行一次)。
目前还不清楚为什么只有某些刀片受到该错误的影响,但升级到 3.1(1h) 版本解决了该问题。