我的一台 centos 主机最近重新启动了,不幸的是没有实施监控。
我怎样才能找出导致它重新启动的原因。我只能通过 ssh 访问它。
如何确定原因是否如下:
1.power failure.(Will there be any special non maskable interrupt logged some where)
2.Intentional hard reset.(will it be possible to differentiate between power failure n reset also what will be Signal to look for?).
3.manual reboot command(How to differentiate this from hard reset,will inode reveal anythng related to this like "**Cleaning Orphaned node**" any special signals?)
4.Low disk space.(there is no message in /log/messages 30 minutes before restart,something stopped daemon from writing to log, disk space was ok ).
5.Overloaded CPU (Not configured to run any cronjob for saving sar o/p,Currently load average is normal Will there be any special signal to look for when CPU is loaded.)
6.Low RAM(currently there is more than 24 GB free space
我有兴趣了解故意(硬重置/发出命令)和断电重启之间的区别。
答案1
对于 3,您将看到有关在重新启动之前关闭进程的日志消息。对于 1 和 2,您不会看到这些消息。此外,对于非正常关闭,您可能会在启动时看到与文件系统检查相关的消息。但请记住,这些消息的存在并不一定表示硬关闭,因为某些文件系统每 N 天或每 X 次挂载都会定期对自己进行检查。
对于 4、5 和 6,这些通常不会导致重新启动,并且它们都是您的监控应该捕获并发出警报的事情。
进一步说明 6,在极端 RAM 负载下,内核将调用内存不足终止程序,以终止占用大量内存的进程,从而保持系统的整体稳定性。发生这种情况时,系统会记录下来。
答案2
对于大多数硬件故障,您可以查看System Event Log
记录,它可以揭示以下内容:
- CPU 过热
- ECC 内存错误
- 电源故障
- IPMI 重新启动
以及更多。
ipmitool
您可以通过或命令访问 SEL(如果您的硬件上可用)ipmiutil
,请参阅:ipmiutil sel - 显示固件系统事件日志记录