我在 Dell PowerEdge R210 上运行 Arch Linux。它的负载不高,只有很少的脚本在运行。没有任何像网络服务这样的软件——只有基础系统。服务器之前已经运行良好很长一段时间,没有进行任何更改,但它开始随机关闭,大约每隔几天一次。服务器受到可信 UPS 的保护,但即使在没有 UPS 的情况下直接插入电源,服务器也会不断关闭,因此这不是电源问题。我通过每分钟执行一次传感器实用程序来监控温度,直到服务器关闭——没有任何问题,所有传感器都显示接近 30 度的温度。所以这不是散热问题。机箱启用了 ipmi,因此每次关机后我都可以执行“power on”ipmi 命令,服务器启动并正常运行。
“restart_cause”中没有任何内容:
$ ipmitool -H 10.5.5.32 -U root -I lanplus chassis restart_cause
System restart cause: unknown
机箱日志中没有任何内容:
$ ipmitool -H 10.5.5.32 -U root -I lanplus sel list
1 | 07/23/2019 | 06:33:43 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
2 | 07/24/2019 | 09:51:50 | Physical Security #0x73 | General Chassis intrusion () | Asserted
3 | Pre-Init |0000000032| Physical Security #0x73 | General Chassis intrusion () | Asserted
4 | Pre-Init |0000000037| Physical Security #0x73 | General Chassis intrusion () | Deasserted
5 | 07/24/2019 | 11:29:10 | Physical Security #0x73 | General Chassis intrusion () | Asserted
6 | 07/24/2019 | 11:29:15 | Physical Security #0x73 | General Chassis intrusion () | Deasserted
这是“最后”命令输出:
$ last -x
user pts/0 10.5.5.25 Wed Jul 31 08:31 - 09:38 (01:07)
root ttyS1 Wed Jul 31 08:23 - 09:38 (01:14)
reboot system boot 5.2.1-arch1-1-AR Wed Jul 31 08:23 - 09:38 (01:15)
shutdown system down 5.2.1-arch1-1-AR Tue Jul 30 20:17 - 08:23 (12:06)
系统日志中没有任何内容。
我已将内核日志级别设置为调试级别,但在关闭之前控制台输出中仅出现一条消息:
reboot: Power down
谁能解释一下“重新启动:断电”到底是什么意思?谁或什么导致了关闭?有谁知道如何调试这个非常奇怪的问题?
答案1
reboot: Power down
可能表明该命令reboot -fp
正在正常关闭过程的最后执行。
输出last -x
表明关闭可能是有序的。如果当时没有人登录,则可能是由 ACPI 电源按钮事件触发的,即有人按下电源按钮少于 4 秒。
机箱日志表明服务器机箱大约一周前被打开过。如果不是由您完成的,则可能会质疑“未进行任何更改”的假设。