在过去的一个月里,我注意到我们的戴尔 PowerEdge T630(Ubuntu 14.04.3 LTS) 服务器意外重启(1 月 29 日为手动重启):
$cat /var/log/wtmp.report | grep boot | grep -v 'Jan 29'
reboot system boot 3.13.0-77-generi Wed Feb 10 09:00 - 13:59 (04:58)
reboot system boot 3.13.0-76-generi Wed Jan 27 09:01 - 10:47 (2+01:45)
reboot system boot 3.13.0-74-generi Tue Jan 19 10:34 - 10:47 (10+00:13)
reboot system boot 3.13.0-74-generi Wed Jan 13 09:02 - 10:47 (16+01:45)
因此,在所有未指定的重启中,它们全部(1 月 19 日除外) 似乎每隔一个星期三上午 9:00 左右(UTC-6)发生一次。
我查看了所有常见的嫌疑人(、、、/var/log/kern.log
等),但找不到任何需要重启的原因。/var/log/auth.log
/var/log/dmesg
/var/log/syslog
我在跑Fail2ban在服务器上;每当我手动重启时,我都会收到一封来自 Fail2ban 的自动电子邮件,说 SSH 已停止,然后另一封电子邮件说它已重新启动。有趣的是,当发生这些未指定的重启时,我只会收到一封电子邮件,说 SSH 已重新启动(也就是说,我没有收到有关 SSH 关闭的电子邮件)。
有人知道是什么原因造成的吗?此服务器仅供我们使用,并且绝对不会以任何方式将其推到极限。该服务器正在运行传统的(阿帕奇) LAMP 堆栈,以及 SSH,以及诸如 python 之类的各种其他东西。
答案1
我发现这是我们大楼的电源问题。服务器连接的电源有故障,当大楼每半周出现一次电源闪烁时,电源无法正常运行。无论如何,购买新的电源解决了这个问题。