使用 ipmiutil 看门狗定时器观察到机器突然重启

使用 ipmiutil 看门狗定时器观察到机器突然重启

最初在 serverfault 上提出问题。

我有一台生产 openSUSE 11.1 2.6.34.4 Intel 服务器,其中安装了标准 ipmiutil-2.4.1。

看门狗基本上是一个 90 秒的硬件计时器,每 60 秒由 cron 作业从用户空间取消一次。

令人担忧的不是看门狗重启本身,而是导致重启的底层服务器故障(如果有的话)。IPMI 看门狗 IMO 正在执行其工作,以将系统从不可恢复的状态恢复。

服务器似乎变得迟缓/缓慢。我根据“丢失/缺失”的 /var/log/cron、syslog 和其他应用程序日志条目得出此结论。

在负载测试中,这种情况会随机发生。负载基本上是 SIP 流量到 SIP 服务器。该问题不易重现,但确实经常发生。对于硬件、时间、正在运行的负载类型,它也不确定。

我已经筋疲力尽了,不知道这是否是坏司机输入/输出错误类似这样的、SIP 应用程序或者其他。

如果需要,我有大量详细的系统活动报告,例如 %usr、%nice、%sys、%iowait、%steal、%irq、pgpgin/s、pgpgout/s、fault/s、majflt/s、pgfree/s 等。

没有任何系统活动报告表明有任何异常(尽管我并不声称拥有精确训练过的洞察力)。

答案1

我认为为这个关键任务设置 cron 作业不是一个好主意。请注意,cron 可能会在执行看门狗任务之前阻止其他任务如这里所述。从你描述的情况来看,假设系统除了重启之外没有表现出任何异常行为,那么很可能是 cron 作业没有及时运行。

您可以使用独立的看门狗守护程序,它们会每隔一秒左右重置一次计时器。我建议您使用其中一个。请参阅BMC 看门狗

相关内容