Linux 服务器无响应并且无法找出原因?

Linux 服务器无响应并且无法找出原因?

当服务器无响应(无法 ping 或 ssh)时,即使控制台(通过 ipmitool 访问)也显示为空白,没有输出或无响应。如果我重置/软启动主机,它会正常工作,并且服务器和控制台都可以正常工作。到目前为止,我在调查过程中注意到:

  1. 我没有看到任何类型的服务器负载(CPU、内存、I/O 等)
  2. 在 /var/log/messages 上看不到任何错误
  3. 一旦主机无响应,它就会停止更新消息文件
  4. 没看到硬件问题
  5. 有些房东经常这样做(比如每天)
  6. 显然这不是由于网络问题

任何有关如何解决此问题的建议都将受到高度赞赏。我可以使用的任何工具或日志也会非常有帮助。我们没有得到供应商的支持。

答案1

我建议启用该kdump服务,并允许串行控制台通过 ipmi 启动故障转储魔法 Sysrq 键(故障转储是“c”)。

通过保存的内核故障转储,您可以检查卡住时发生了什么。

由于您已经有了 ipmi,您还可以在内核参数中将 SOL 设备设置为控制台,这样您就可以让它继续运行。将系统日志发送到远程主机也是一个好主意。

相关内容