远程 Linux Web/DB 服务器停止响应,托管公司刚刚重新启动了它。我应该采取什么步骤来找出问题所在?
答案1
远程服务器停止响应的原因有很多。
1-服务器可能超载,响应太慢。
2-服务器可能崩溃(内核错误导致系统崩溃,或应用程序崩溃)。
3- 对于远程服务器,问题可能与网络访问有关。您只是无法访问服务器,但它仍在运行。
您首先需要通过收集更多信息来排除明显的原因,以缩小搜索范围。
答案2
它以什么方式停止响应?sshd 和 Apache 都挂了,但服务器仍然响应 ping?完全断电,甚至 ping 都无法进行?这是虚拟服务器还是物理服务器?
首先,如果您有某种可用的平均负载/内存/CPU 使用率图表,请在崩溃时查看它们是否发生了异常情况。然后,阅读日志。
如果问题与软件有关,则可能在某个日志文件中有一些相关内容。也许是僵尸网络攻击了您的 Web 服务器,并用 HTTP 请求淹没了它——也许是其他某个进程(比如从 cron 运行的进程)出了问题。例如,如果您看到内核已记录内存不足消息并告诉你有关 OOM 杀手的信息,那么某个进程试图消耗所有可用内存,内核会杀死该进程。大多数情况下,OOM 杀手只会杀死真正的混蛋进程,但偶尔也会有这样的进程sshd也可能被击落。
另一方面,如果服务器突然停止工作,并且没有任何警告,则可能是硬件故障。服务器有时也会崩溃。如果这是第一次,并且您的服务器到目前为止一直非常可靠,请不要失眠。
但是,如果这种情况很快再次发生,您需要采取行动。如果有某种接口可以监控服务器硬件,或者您的托管公司可以检查该接口,请查看所有风扇是否正常运行,服务器是否在可容忍的温度下运行,并检查硬件是否存在错误消息。
如果硬件没有问题但是您在日志中看到内核崩溃,请确保您的 Linux 发行版是最新的。
抱歉,我无法再为您提供任何帮助。一行半的问题并不算太冗长。