随机关机

随机关机

我在 Dell PowerEdge R210 上运行 Arch Linux。它的负载不高,只有很少的脚本在运行。没有任何像网络服务这样的软件——只有基础系统。服务器之前已经运行良好很长一段时间,没有进行任何更改,但它开始随机关闭,大约每隔几天一次。服务器受到可信 UPS 的保护,但即使在没有 UPS 的情况下直接插入电源,服务器也会不断关闭,因此这不是电源问题。我通过每分钟执行一次传感器实用程序来监控温度,直到服务器关闭——没有任何问题,所有传感器都显示接近 30 度的温度。所以这不是散热问题。机箱启用了 ipmi,因此每次关机后我都可以执行“power on”ipmi 命令,服务器启动并正常运行。

“restart_cause”中没有任何内容:

$ ipmitool -H 10.5.5.32 -U root -I lanplus chassis restart_cause
System restart cause: unknown

机箱日志中没有任何内容:

$ ipmitool -H 10.5.5.32 -U root -I lanplus sel list
   1 | 07/23/2019 | 06:33:43 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
   2 | 07/24/2019 | 09:51:50 | Physical Security #0x73 | General Chassis intrusion () | Asserted
   3 |  Pre-Init  |0000000032| Physical Security #0x73 | General Chassis intrusion () | Asserted
   4 |  Pre-Init  |0000000037| Physical Security #0x73 | General Chassis intrusion () | Deasserted
   5 | 07/24/2019 | 11:29:10 | Physical Security #0x73 | General Chassis intrusion () | Asserted
   6 | 07/24/2019 | 11:29:15 | Physical Security #0x73 | General Chassis intrusion () | Deasserted

这是“最后”命令输出:

$ last -x
user     pts/0        10.5.5.25        Wed Jul 31 08:31 - 09:38  (01:07)
root     ttyS1                         Wed Jul 31 08:23 - 09:38  (01:14)
reboot   system boot  5.2.1-arch1-1-AR Wed Jul 31 08:23 - 09:38  (01:15)
shutdown system down  5.2.1-arch1-1-AR Tue Jul 30 20:17 - 08:23  (12:06)

系统日志中没有任何内容。

我已将内核日志级别设置为调试级别,但在关闭之前控制台输出中仅出现一条消息:

reboot: Power down

谁能解释一下“重新启动:断电”到底是什么意思?谁或什么导致了关闭?有谁知道如何调试这个非常奇怪的问题?

答案1

reboot: Power down可能表明该命令reboot -fp正在正常关闭过程的最后执行。

输出last -x表明关闭可能是有序的。如果当时没有人登录,则可能是由 ACPI 电源按钮事件触发的,即有人按下电源按钮少于 4 秒。

机箱日志表明服务器机箱大约一周前被打开过。如果不是由您完成的,则可能会质疑“未进行任何更改”的假设。

相关内容