Tomcat webapps 占用了所有内存

Question 1

至于 htop 是否错误，我认为您已启用线程信息，因此您看到的每个 java 条目都是同一进程的一个线程。要验证这一点，请切换“显示线程”（按“H”切换）。

从 htop 屏幕截图中我注意到你的服务器有 8G 的 RAM，因此将 JVM 限制为 5G + PermGen + 一些开销，你应该可以假设没有其他占用大量内存的进程在运行。

接下来要检查的是垃圾收集器，根据您的 Java 版本，有一个标志（至少在 Oracle Java/OpenJDK 中）使 JVM 记录每个 GC 事件，通常是这样的：-verbose:gc -XX:+PrintGCDateStamps -Xloggc:SOMEFILENAME并检查是否增加 GC 活动，如果发生内存泄漏，您会看到垃圾收集随着时间的推移变得越来越频繁，直到它使用所有 CPU 尝试释放内存但没有成功，并且您可以在日志中看到内存不足异常。此时，您必须将kill -9应用程序作为您的问题。但现在您将有一个事后 GC 活动日志来证明是否存在内存泄漏。

接下来，如果您部署了多个应用程序，请尝试将每个应用程序拆分到单个 tomcat 实例中（如果可能）。或者在内存不足时启用堆转储。

至于在没有修复代码的可能性的情况下该怎么办，好吧，假设有内存泄漏，设置对 GC 频率的监控，例如，如果一分钟内有 3 次完整 GC 尝试，则自动重新启动 tomcat。

虽然很丑，但如果没有其他选择，它可以让你晚上睡觉。

Answer

至于 htop 是否错误，我认为您已启用线程信息，因此您看到的每个 java 条目都是同一进程的一个线程。要验证这一点，请切换“显示线程”（按“H”切换）。

从 htop 屏幕截图中我注意到你的服务器有 8G 的 RAM，因此将 JVM 限制为 5G + PermGen + 一些开销，你应该可以假设没有其他占用大量内存的进程在运行。

接下来要检查的是垃圾收集器，根据您的 Java 版本，有一个标志（至少在 Oracle Java/OpenJDK 中）使 JVM 记录每个 GC 事件，通常是这样的：-verbose:gc -XX:+PrintGCDateStamps -Xloggc:SOMEFILENAME并检查是否增加 GC 活动，如果发生内存泄漏，您会看到垃圾收集随着时间的推移变得越来越频繁，直到它使用所有 CPU 尝试释放内存但没有成功，并且您可以在日志中看到内存不足异常。此时，您必须将kill -9应用程序作为您的问题。但现在您将有一个事后 GC 活动日志来证明是否存在内存泄漏。

接下来，如果您部署了多个应用程序，请尝试将每个应用程序拆分到单个 tomcat 实例中（如果可能）。或者在内存不足时启用堆转储。

至于在没有修复代码的可能性的情况下该怎么办，好吧，假设有内存泄漏，设置对 GC 频率的监控，例如，如果一分钟内有 3 次完整 GC 尝试，则自动重新启动 tomcat。

虽然很丑，但如果没有其他选择，它可以让你晚上睡觉。

Question 2

由于我没有看到用于启动 JVM 的完整命令行参数，也不知道您在那里部署的应用程序的性质，所以我只能猜测您的应用程序正在创建大量“长寿命”对象，这些对象会进入旧代空间，而您那里的内存不足。此外，旧代空间中的 GC 收集非常昂贵，您的 JVM 可能在某个时候无法跟上 GC 运行并陷入停顿。

话虽如此，我可以建议以下 JVM 调整参数。

删除下面两个：

-XX:NewSize=1G 
-XX:MaxNewSize=1G

并添加以下内容：

-XX:+UseParallelOldGC
-XX:SurvivorRatio=10
-XX:NewRatio=2

如果问题没有解决，请继续将 NewRatio 增加到 3、4、5，并查看 JVM 是否足够稳定，可以继续运行而不会出现任何问题。另外，我不确定为什么您需要 512M 的 permgen 大小-XX:PermSize=512m。请咨询您的应用程序开发人员，看看他们是否真的需要那么多，并尽可能减少它。

此外，当问题发生时，在您终止进程之前，请运行以下命令并在此处发布输出，这将为试图帮助您的人提供线索。（注意：您必须以 root 身份运行）。

jmap -heap <pid_of_jvm>

PS：@Fredi 解释的 htop 输出是正确的，它误导性地将 LWP 线程 ID 标记为 PID。

Answer