如何解决 Linux 意外关机问题

如何解决 Linux 意外关机问题

我有两台 RHEL6.3 服务器,它们毫无原因地在同一时间(间隔 25 秒)关机。它们使用的是经过调节的电源,还有许多其他服务器没有关机,所以不可能是电源问题。房间温度适宜,两台服务器同时关机似乎不太可能。

在关闭时,两个服务器的 /var/log/secure 中都有以下内容。我不知道这意味着什么,但觉得很奇怪。

Apr 10:42:52 localhost polkitd(authority=local): Unregistered Authentication Agent for session /org/freedesktop/ConsoleKit/Session1 (system bus name :1.25, object path /org/gnome/PolicyKit1/AuthenticationAgent, locale en_US.UTF-8) (disconnected from bus)

在 /var/log/messages 中,两个系统似乎都收到了干净的关机请求

Apr 10 10:42:52 localhost init: tty (/dev/tty2) main process (6183) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty3) main process (6186) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty4) main process (6188) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty5) main process (6190) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty6) main process (6192) killed by TERM signal

所以我最后检查了一下是否有人登录来执行此操作,并且两者都有此条目,但几天前都没有人登录过。

reboot     system boot   2.6.32-279.el6.x Thu Apr 10 10:42 - 10:42  (00:00)

因此,如果没有人登录关闭服务器,并且我有两个人在场见证了服务器关闭,他们确认没有人触碰过任何一台服务器,那么还有什么原因可能导致服务器关闭?我还应该在哪里寻找线索?

答案1

假设这是内核错误(内核崩溃),您需要捕获服务器控制台的输出以了解到底发生了什么。您可以使用以下命令执行此操作:

为确保成功,需要在所有服务器上仔细检查以下事项:

  • 检查 /etc/sysrq.conf 中的 kernel.panic 选项,该选项控制内核崩溃后 Linux 重新启动的超时时间
  • 通过 /etc/sysrq.conf 中的 kernel.printk 检查内核日志级别,建议使用更多调试:echo 'kernel.printk = 8 4 1 7' >> /etc/sysctl.conf

相关内容