我们尚未遇到任何应用程序错误,但我们的监控工具表明我们的应用程序正在资源限制下运行。我们应该先添加更多堆还是添加额外的虚拟机?
我们有一个在托管集群中的 WebLogic/JRockit 上运行的应用程序。
我们让 AppDynamics 监控此应用程序,它显示主要垃圾收集正在频繁发生(平均每 1-2 分钟一次!!!)。当主要垃圾收集运行时,它确实会恢复空间,并且堆使用率的较低范围相当低,即使系统已经运行了一段时间(几周/几个月)。此外,我们针对生产运行了 AppDynamics 集合泄漏检测,没有发现泄漏。(我们无法运行自定义监控,因为它不受 JRockit 支持。)但总体而言,似乎没有重大泄漏,只是系统需要的资源比目前拥有的更多。
我们有两个非生产环境也在运行此应用程序,但资源和负载都减少了(开发和测试)。测试环境的虚拟机数量是生产环境的 2/3,每个虚拟机的堆是生产环境的 1/2。我们针对此环境运行了一些负载测试,但结果并没有什么帮助。虽然我们可以使用自动化脚本重新创建用户数量,但我们测试环境中的数据却大不相同——查询返回的数据要少几个数量级,等等。(创建更好的负载测试环境当然在待办事项清单上,但由于官僚主义的原因,短期内不太可能真正实现。)即使我们投入了所有精力,测试环境也没有出什么问题。
两个选项,A) 添加更多堆。这似乎肯定会有所帮助,但要完成这项工作需要大量的文书工作(需要向物理服务器添加更多内存,这意味着服务器重新启动涉及许多其他应用程序等)。此外,我不知道要添加多少内存,我们不能只是“在生产中测试”。B) 为该应用程序添加另一个 VM(或两个)。这会相当容易,我们在另一台物理服务器上有空间,所以我们可以相当快地完成它。但我不确定它是否会有很大帮助,如果它没有帮助,那么稍后再回到选项 A 会更加困难。
具体问题:1) 上述选项中是否有一个明显更好(以及原因)?2) 如果两者都不是明显更好,我会进行哪些测试等来决定哪个更好?3) 我应该如何决定并证明要添加多少资源(堆或虚拟机)?(如果涉及我们已经拥有的工具,则可获得加分。)
更新:
- 一个集群中有 3 个 JVM,每个 JVM 位于单独的 VM 上。
- 它们位于 Apache 负载均衡器后面,每个服务器获得大致相同的负载。
- 每个 JVM 都有 1 GB 的堆。
- 无 FMW。
答案1
假设应用程序已经彻底分析过,并且不存在内存泄漏(看起来似乎是这样),那么您必须以堆中创建的对象是由于应用程序的正常活动引起的为前提。
消除代码优化,和/或根据正在创建的对象的大小和生命周期对内存堆进行更精细的调整(这反过来又取决于您使用的特定 JVM),除了向您的域添加更多托管节点之外,没有太多改进空间。
使用每个 WebLogic 安装中已有的工具(即 WLST)可以轻松实现这一点。
有详尽的文档介绍了如何使用 WLST 为现有集群创建托管节点及其各自的节点管理器。
答案2
我们最终完成了这两项工作(将堆空间从 1GB 增加到 1.5GB,并将托管节点从 3 个增加到 5 个)。
在添加新节点之前大约一小时,堆就会增加,这本身就足以显著减少垃圾收集的次数和垃圾收集所花费的时间。
添加更多节点只会带来轻微的改进,但很难确定它是否真的没有什么帮助,或者在增加堆后是否没有太大的改进空间。