调查常规服务器冻结

调查常规服务器冻结

我有一台运行 CentOS 6.3 的专用服务器。每隔一段时间,在我所在时区的凌晨 2:00 到 6:00 左右,服务器就会冻结 - 我不确定发生了什么,但似乎所有正在运行的进程都停止了。我制作的一个 Java 应用程序每分钟都会记录日志,到那时就会停止。我能够连接到 KVM 并发现黑屏,从 KVM 界面我能够重新启动它。

我想知道是否有人知道如何调查此问题的原因。我不太确定要查看哪些日志以及我可能会发现什么。

这是带宽使用情况的图片:

http://bit.ly/UwfsEn

正如您所看到的,当我能够重新打开它时,它似乎完全切断并返回。

答案1

有几个选择:

  • 虚拟化软件/KVM崩溃
  • 客户操作系统或网络堆栈崩溃(如果您的 Java cron 作业在本地运行且不依赖于网络连接,我们可以排除网络堆栈)
  • 系统以某种方式超载 - 交换终止、CPU 不足、进程数量达到限制或内存不足。

为了排除资源耗尽的情况,请使用类似或者穆宁并尝试每隔一分钟左右收集一次基本统计数据。Munin 将为您提供大量有用的统计数据,包括平均负载、进程数、CPU 使用率、可用内存、交换使用率和交换活动。

我担心这是客户机内核崩溃或 KVM 行为不当。如果是这样,上述方法将无济于事。

相关内容