我们有两台 Red Hat 服务器定期“挂起”。系统会无响应 20 - 30 秒,然后恢复“正常”。系统未虚拟化,在自己的专用硬件上运行。
当我说系统变得无响应时,我知道这是因为系统上运行了一个脚本,该脚本每 5 秒运行一次 - (1) 打印出当前时间,(2) 执行 wget 以访问系统上的网站,(3) 再次打印出结束时间,(4) 休眠 5 秒。我们从日志中看到,“休眠 5 秒”有时需要 20 - 30 秒,而我们的 Nagios 监控确认系统在相同的时间内无法访问。
基本上,这些系统是运行 Tomcat6 的 Red Hat 6.5 的全新安装。此外,还安装了针对 GlusterFS 存储的 NFS 共享。该驱动器上有一些活动。此外,Tomcat6 webapps 占用一定内存,需要 7 - 15GB 的 RAM。
几周以来,我们一直在试图找出导致这种情况的原因,但最终我们还是束手无策。我们仔细检查了 Tomcat 应用程序,尝试了 NFS 安装上的所有选项,还尝试了 SELinux,等等。然而,问题仍然存在。
有谁知道什么原因可能导致整个系统挂起?
答案1
系统挂了 >> 可能有原因;资源使用情况(如 RAM、CPU、HDD 等)+ 导致这种情况的某些情况。
- 收集最大性能数据和问题发生的时间段。使用 Nagios 和 SAR 等 - 为此,如果时间相同,则创建一个 shell 脚本来捕获正在运行的进程和所有进程资源使用情况,它将帮助您识别锤击进程。
可能性:- NFS 问题 - 尝试使用软挂载选项而不是硬挂载。