如何从日志中区分故意重启和电源故障

如何从日志中区分故意重启和电源故障

我的一台 centos 主机最近重新启动了,不幸的是没有实施监控。

我怎样才能找出导致它重新启动的原因。我只能通过 ssh 访问它。

如何确定原因是否如下:

1.power failure.(Will there be any special non maskable interrupt logged some where)

2.Intentional hard reset.(will it be possible to differentiate between power failure n reset also what will be Signal to look for?).

3.manual reboot command(How to differentiate this from hard reset,will inode reveal anythng related to this like "**Cleaning Orphaned node**"  any special signals?)

4.Low disk space.(there is no message in /log/messages 30 minutes before restart,something stopped daemon from writing to log, disk space was ok ).  

5.Overloaded CPU (Not configured to run any cronjob for saving sar o/p,Currently load average is normal Will there be any special signal to look for when CPU is loaded.)

6.Low RAM(currently there is more than 24 GB free space

我有兴趣了解故意(硬重置/发出命令)和断电重启之间的区别。

答案1

对于 3,您将看到有关在重新启动之前关闭进程的日志消息。对于 1 和 2,您不会看到这些消息。此外,对于非正常关闭,您可能会在启动时看到与文件系统检查相关的消息。但请记住,这些消息的存在并不一定表示硬关闭,因为某些文件系统每 N 天或每 X 次挂载都会定期对自己进行检查。

对于 4、5 和 6,这些通常不会导致重新启动,并且它们都是您的监控应该捕获并发出警报的事情。

进一步说明 6,在极端 RAM 负载下,内核将调用内存不足终止程序,以终止占用大量内存的进程,从而保持系统的整体稳定性。发生这种情况时,系统会记录下来。

答案2

对于大多数硬件故障,您可以查看System Event Log记录,它可以揭示以下内容:

  1. CPU 过热
  2. ECC 内存错误
  3. 电源故障
  4. IPMI 重新启动

以及更多。

ipmitool您可以通过或命令访问 SEL(如果您的硬件上可用)ipmiutil,请参阅:ipmiutil sel - 显示固件系统事件日志记录

相关内容