我们目前正在整个环境中努力禁用 HP 服务器自动重启的所有方式。这是对大规模中断的响应,这次中断导致我们的服务器开始出现故障,导致数百万客户的服务中断。“上级”的要求是关闭服务器,但不要重启,直到“一切正常”时有人可以手动引导它们重新上线(我们有几个地理上冗余的站点)。
到目前为止,我已经确定了以下可能的原因:
- HP ASR 会自动重启主机。可以通过关闭 ASR 计时器来禁用此功能。
- 在 iLO 中禁用自动开机功能。我相信这仅在断电并重新接通主机电源时才会触发。
但是,我假设还有另一种配置,当其中一个服务器传感器超过临界阈值时应用,例如,如果环境温度传感器超过 40 摄氏度。这绝对应该关闭主机,但我不确定配置在哪里可以禁用环境温度下降后的自动重启。或者这也由 HP ASR 控制?
我只是想确保没有任何我忘记的可能在生产中给我们带来麻烦的场景。
任何帮助,将不胜感激。