如何诊断 Ubuntu 系统重启后冻结

如何诊断 Ubuntu 系统重启后冻结

我们的一台服务器昨天死机了,似乎拒绝处理任何 HTTP 请求。现场的技术人员无法远程连接到该机器,因此他从 VMware Infrastructure Client 重新启动了(虚拟)机器,一切又恢复正常。

现在我想弄清楚到底出了什么问题。我查看了几个日志文件,它们都在凌晨 5:00 停止记录任何内容,然后按照启动顺序重新开始记录。除了一些 cron 作业在凌晨 5:00 运行之外,我没有发现任何可疑之处。这些都是相当简单的作业,与任何关键任务都没有交互,并且在它们完成后至少有一些活动。

冻结持续了几个小时。在同一台机器上的其他虚拟机上,我们没有遇到任何问题,这些虚拟机的配置都非常相似。

我应该从哪里开始寻找线索?如果这种情况再次发生,在重置机器之前,我可以告诉人们做什么?也许是 Magic SysRq?

答案1

我的第一个行动是让服务器停止服务并运行完整的 Memtest+ 以检查内存是否出现故障。接下来检查 HDD 的 SMART 是否有任何问题。接下来是按照以下说明操作http://www.kernel.org/doc/Documentation/networking/netconsole.txt以便将来能够捕捉任何类似的事情。

答案2

我猜你已经看过了,但是如何使用系统日志来诊断神秘崩溃 不知道这是否有帮助,你的服务器是否承受着压力/服务着大量客户

相关内容