什么原因会导致整个 Red Hat 服务器“挂起”？

2024-5-30 • tag-icon

什么原因会导致整个 Red Hat 服务器“挂起”？

我们有两台 Red Hat 服务器定期“挂起”。系统会无响应 20 - 30 秒，然后恢复“正常”。系统未虚拟化，在自己的专用硬件上运行。

当我说系统变得无响应时，我知道这是因为系统上运行了一个脚本，该脚本每 5 秒运行一次 - (1) 打印出当前时间，(2) 执行 wget 以访问系统上的网站，(3) 再次打印出结束时间，(4) 休眠 5 秒。我们从日志中看到，“休眠 5 秒”有时需要 20 - 30 秒，而我们的 Nagios 监控确认系统在相同的时间内无法访问。

基本上，这些系统是运行 Tomcat6 的 Red Hat 6.5 的全新安装。此外，还安装了针对 GlusterFS 存储的 NFS 共享。该驱动器上有一些活动。此外，Tomcat6 webapps 占用一定内存，需要 7 - 15GB 的 RAM。

几周以来，我们一直在试图找出导致这种情况的原因，但最终我们还是束手无策。我们仔细检查了 Tomcat 应用程序，尝试了 NFS 安装上的所有选项，还尝试了 SELinux，等等。然而，问题仍然存在。

有谁知道什么原因可能导致整个系统挂起？

答案1

系统挂了 >> 可能有原因；资源使用情况（如 RAM、CPU、HDD 等）+ 导致这种情况的某些情况。

收集最大性能数据和问题发生的时间段。使用 Nagios 和 SAR 等 - 为此，如果时间相同，则创建一个 shell 脚本来捕获正在运行的进程和所有进程资源使用情况，它将帮助您识别锤击进程。

可能性：- NFS 问题 - 尝试使用软挂载选项而不是硬挂载。

相关内容