如何找出服务器挂起但仍可通过 ping 访问的原因

如何找出服务器挂起但仍可通过 ping 访问的原因

我的一台服务器在德国数据中心运行,每晚都会“挂起”,但我找不到原因。在 /var/log/messages 和 /var/log/syslog 中未发现任何错误。

服务器响应 ping,但所有服务都已关闭(ssh、apache 等)。重置后,一切运行正常。

已进行硬件测试。看起来是软件问题。

答案1

我会将一些简单的分析命令记录到文件中,这样您就可以在事后了解问题所在。例如:

nohup top -b -d 60 >> top.log & # runs every 60 seconds
nohup vmstat 5 >> vmstat.log &
nohup iostat 5 >> iostat.log &

nohup是为了当你与服务器失去连接时它们不会被杀死。你也可以使用screen它。

最后两个命令的一个更强大的替代方案是设置特区

答案2

当我看到类似问题时,通常都是 cron 作业出了问题。

检查系统日志,查看在服务器挂起的同一时间运行的 cron 作业。此外,检查根 crontab ( crontab -e) 和作业,/etc/cron.daily查看是否有任何可能导致挂起的因素。

答案3

听起来随机崩溃可能是由硬件故障引起的。让托管公司查看 POST 或服务器 LCD 上是否有任何错误。如果是戴尔服务器,您可能需要安装 Open Management,它会告诉您是否有硬件故障。根据我的经验,内存 dimm 故障可能会导致服务器随机重启。根据您正在运行的硬件类型,如果问题仍然存在,您的托管应该可以在服务器上进行机箱交换。

相关内容