我们有一台 Redhat Enterprise 服务器(不是我们设置的,但我们没有理由认为它不是出厂安装的),每隔几周就会无缘无故地重启一次。以前,日志文件中没有任何内容表明它毫无预警地死机了。
我们刚刚发现服务器自周六以来一直处于宕机状态,并且日志似乎表明服务器已有序关闭:
Dec 19 14:23:38 SKUNK1 shutdown: shutting down for system halt
问题是我们不知道它为什么关闭,并且非常确定不是有人故意这样做的。
谁能解释为什么会发生这种情况,以及我们该如何诊断?
答案1
看这个问题。上次我看到类似情况时,是主板传感器坏了,认为温度过高,所以关闭了计算机以保护它。
答案2
https://bugzilla.redhat.com/show_bug.cgi?id=459043
或者您可以检查 /etc/inittab
答案3
值得一看的一种可能性是 /etc/auditd.conf 中的“action”设置(特别是 admin_space_left_action、space_left_action 和 disk_full_action),如果其中任何一个设置为“halt”,那么您可能会遇到磁盘空间阈值,其中框会自行停止,因为它没有足够的空间来记录日志文件。
如果这确实是问题,您要么需要释放额外的空间,要么更改 auditd.conf 文件中的阈值,要么将行为操作更改为除停止之外的其他操作。