采取什么步骤来发现问题

采取什么步骤来发现问题

远程 Linux Web/DB 服务器停止响应,托管公司刚刚重新启动了它。我应该采取什么步骤来找出问题所在?

答案1

远程服务器停止响应的原因有很多。

1-服务器可能超载,响应太慢。

2-服务器可能崩溃(内核错误导致系统崩溃,或应用程序崩溃)。

3- 对于远程服务器,问题可能与网络访问有关。您只是无法访问服务器,但它仍在运行。

您首先需要通过收集更多信息来排除明显的原因,以缩小搜索范围。

答案2

它以什么方式停止响应?sshd 和 Apache 都挂了,但服务器仍然响应 ping?完全断电,甚至 ping 都无法进行?这是虚拟服务器还是物理服务器?

首先,如果您有某种可用的平均负载/内存/CPU 使用率图表,请在崩溃时查看它们是否发生了异常情况。然后,阅读日志。

如果问题与软件有关,则可能在某个日志文件中有一些相关内容。也许是僵尸网络攻击了您的 Web 服务器,并用 HTTP 请求淹没了它——也许是其他某个进程(比如从 cron 运行的进程)出了问题。例如,如果您看到内核已记录内存不足消息并告诉你有关 OOM 杀手的信息,那么某个进程试图消耗所有可用内存,内核会杀死该进程。大多数情况下,OOM 杀手只会杀死真正的混蛋进程,但偶尔也会有这样的进程sshd也可能被击落。

另一方面,如果服务器突然停止工作,并且没有任何警告,则可能是硬件故障。服务器有时也会崩溃。如果这是第一次,并且您的服务器到目前为止一直非常可靠,请不要失眠。

但是,如果这种情况很快再次发生,您需要采取行动。如果有某种接口可以监控服务器硬件,或者您的托管公司可以检查该接口,请查看所有风扇是否正常运行,服务器是否在可容忍的温度下运行,并检查硬件是否存在错误消息。

如果硬件没有问题但是您在日志中看到内核崩溃,请确保您的 Linux 发行版是最新的。

抱歉,我无法再为您提供任何帮助。一行半的问题并不算太冗长。

相关内容