我最近遇到了服务器突然重启的情况。我想知道为什么会发生这种情况。我在 system.log 中看到的唯一在重启前发生的事情与 iLO 有关。此时 iLO 未连接,也未使用。并且日志中没有其他有关 iLO 的消息。
任何想法 ?
操作系统:Debian Etch
Dec 15 10:55:13 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:16 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:26 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:29 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:36 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:44 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:46 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:46 s01 hpasmxld[4745]: iLO 2 Communications Error - Attempting synchronization!
Dec 15 10:55:59 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:56:29 s01 last message repeated 2 times
Dec 15 10:56:31 s01 hpasmxld[4745]: iLO 2 has responded to reset request . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Stopping the Watchdog Timer . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Resetting Internal Data structures . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Initializing Internal Data structures from iLO 2. . .
Dec 15 10:56:31 s01 hpasmxld[4745]: The iLO 2 reset / synchronization has completed successfully
答案1
查看此处的信息:
这似乎表明,在服务器利用率长期处于低位之后,就会发生自动服务器恢复。
答案2
由于您的机器已安装 HP 管理代理(基于日志条目),您可以快速查看 HP 集成管理日志,看看是否实际记录了 ASR。运行hplog -v
以显示日志。指示 ASR 关闭的典型消息如下所示:
0003 Critical 13:49 02/23/2010 13:49 02/23/2010 0001
LOG: ASR Detected by System ROM
您可能还想检查消息日志。HP 管理代理可以在 ASR 之后输出类似以下内容:
Trap-ID=6025
An 'ASR Recover Complete' trap signifies that the system has
been shutdown by the ASR feature and has just become operational
again.
答案3
我的 HP 服务器也出现过类似故障,由于工厂 CPU 散热器安装不当导致过热。
服务器本身没有显示出任何问题的外在迹象,但对于您来说,可能需要检查 CPU 温度并(在计划维护期间)运行内存检查。