Cisco UCS CPU 每天同一时间出现故障

Cisco UCS CPU 每天同一时间出现故障

情况

  • 最近从 2.2 升级到 3.1(1e)。
  • 自升级以来,每天早上 6:51(UTC+1),我安装的 B200 系列刀片服务器中就会有 0 到 3 个(共约 60 个)出现故障。
  • 总是相同的三个刀片,全部位于不同的底盘中。
  • 故障表现为硬挂起,SEL 中出现“CPU 预测故障”和“CATERR_N”消息。
  • 对刀片进行电源循环可使其恢复服务(至少直到下次故障)。
  • UCSM 中没有与一天中的这个时间相近的一次性或重复性计划。
  • 思科 TAC 正在调查,但并未解释为何故障每天都在同一时间发生。

我的研究和怀疑

  • 我有一个理论:这些都是真正的硬件问题,只是通过固件升级以某种方式暴露出来了。
  • 其中简要提到了“传感器扫描管理器”故障排除指南,但我找不到关于它做什么或如何监控它的任何详细信息。
  • 我几乎排除了环境原因。我们的电力和温度监测器当时没有显示任何异常。我们不在地震带 :-)

问题

为什么故障每天都会在同一时间发生?

答案1

事实证明固件版本 3.1(1e) 中的一个错误(该链接需要 Cisco 帐户)。它被描述为涉及 VIC 1340 和调试中断的“罕见事件”。

之所以每天都在同一时间发生这种情况,是因为——

  • 内存占用严重,随后
  • 跑步lspci

这正是 Puppet 每天早上所做的事情(我们每天只运行一次)。

目前还不清楚为什么只有某些刀片受到该错误的影响,但升级到 3.1(1h) 版本解决了该问题。

相关内容