最初在 serverfault 上提出这问题。
我有一台生产 openSUSE 11.1 2.6.34.4 Intel 服务器,其中安装了标准 ipmiutil-2.4.1。
看门狗基本上是一个 90 秒的硬件计时器,每 60 秒由 cron 作业从用户空间取消一次。
令人担忧的不是看门狗重启本身,而是导致重启的底层服务器故障(如果有的话)。IPMI 看门狗 IMO 正在执行其工作,以将系统从不可恢复的状态恢复。
服务器似乎变得迟缓/缓慢。我根据“丢失/缺失”的 /var/log/cron、syslog 和其他应用程序日志条目得出此结论。
在负载测试中,这种情况会随机发生。负载基本上是 SIP 流量到 SIP 服务器。该问题不易重现,但确实经常发生。对于硬件、时间、正在运行的负载类型,它也不确定。
如果需要,我有大量详细的系统活动报告,例如 %usr、%nice、%sys、%iowait、%steal、%irq、pgpgin/s、pgpgout/s、fault/s、majflt/s、pgfree/s 等。
没有任何系统活动报告表明有任何异常(尽管我并不声称拥有精确训练过的洞察力)。