调查服务器无响应的原因

调查服务器无响应的原因

我正在运行虚拟专用服务器(运行 apache+tomcat+jruby 的 Debian/Linux),有时它无法访问(我甚至无法 ping 通它)。我认为这是我们的服务提供商造成的。发生这种情况时,必须通过提供商的管理控制台重新启动服务器,然后一切恢复正常。我尝试查看 var/log 中的日志,但没有发现任何异常。调查此类事件的下一步是什么?

答案1

如果您在日志中提到您正在寻找但未能找到的内容,这可能会有所帮助。

这里可能没什么可做的。但您可以尝试设置一个基本的内部看门狗 - 使用 cron(或最好是守护进程)定期、短间隔触发和记录事件 - 然后检查它是否持续运行直到重新启动。

并增加日志记录。

假设你正在向服务提供商付款——你应该要求他们提供调查的详细信息

答案2

为了解决问题,我想回答的第一个问题如下:

  • 当服务器失去响应时,它是否有能力发送出站 ping 数据包?
  • 发生故障时网络配置如何?
  • 服务器上是否运行防火墙?发生故障时防火墙的状态如何?

您是否拥有可用于尝试建立远程控制台会话的 KVM?无论如何,您都希望从里面发生故障时的服务器。

当日志未指示错误并且您无法建立远程控制台设置时,您可以选择一个cron条目,该条目定期将您的网络/防火墙设置的输出回显到您稍后可以检查的文件中。

相关内容