Redhat Phantom 内存不足问题

Redhat Phantom 内存不足问题

我们有一个运行各种无头应用程序(如 Java)的服务器。它处理流数据、日常 Python 脚本等。我们的一些应用程序有时会出现问题out of memory errors

我们遇到的问题是监控显示内存充足。我们将其从 128GB 增加到 192GB,但问题并未解决。我们的监控每 20 秒读取一次,显示过去 2 天内最低可用内存为 132GB。但今天早上我们遇到了一些应用程序因内存不足错误而失败的情况。内存充足的情况下是否可能出现 OOM?

编辑:回答 David 的问题

  • 是的,192GB 只是分配给操作系统的内存。这是一个虚拟机
  • 监控将读取操作系统的空闲/可用内存,我们没有任何进程监控
  • 大多数 Java 进程没有在 CLI 上指定内存要求(例如 Xmx 等)
  • 异常是“线程“main”中的异常java.lang.OutOfMemoryError:无法创建新的本机线程”

我想补充的是,多个进程同时失败。对我来说,这表明这不是进程本身的问题,而是系统的问题。一些失败的应用程序每天都在做同样的事情,即处理相当一致的数据流。它们不可能被大量请求淹没。

答案1

当您说“我们将其从 128GB 提升到 192GB,但问题仍未解决”时,您指的是什么?JVM 堆空间?RHEL VM?另外,您说的“我们的监控需要读数”是什么意思?您的监控是查看 Java 堆内存还是系统内存?

在有大量可用 RAM 的情况下是否可能发生 OOM?

当然。最常见的原因是“有大量可用 RAM”,但类型不对。例如,服务器上有 RAM,但 Java 进程未配置为使用它。或者 Java 堆中有可用 RAM,但 Java 应用程序需要堆栈内存而不是堆内存。或永久内存。或堆外内存。

还有一些其他极端情况,即使使用上述方法,您也可能会遇到 OOM 错误,但这种情况非常罕见。最有可能的是,您添加了错误类型的内存。

如果我要调试的话我的第一步是:

  • OOM 错误到底是什么?您在哪里看到它?
  • 查看 JVM 启动标志(以及可能的应用程序的配置,取决于它是什么类型的应用程序)。
  • 在应用程序中启用 GC 日志记录。

根据堆栈跟踪进行编辑:

好吧,看来我的“还有其他一些极端情况”评论是有预见性的。我同意 Philipp Wendler 的评论,认为这是https://stackoverflow.com/q/16789288/396730。实际上,您并没有耗尽内存,而是耗尽了线程。

你可以在这里查看:https://access.redhat.com/solutions/1420363如何增加线程数(简短版本:更新/proc/sys/kernel/threads-max)。但正如链接的 Stack Overflow 帖子中所讨论的那样,您可能需要修复应用程序,而不仅仅是增加限制。任何使用超过默认最大线程数的应用程序都可能泄漏线程。(如果不是,那肯定是在浪费线程。)特别是如果您说它们没有被请求淹没。

答案2

我想添加一些我用来调查问题的命令。我将这些命令添加到 cron 中,每分钟运行一次。

#log total count of threads to a file
echo $(date +"%Y-%m-%d %H:%M"; ps -eLf | wc -l) >> /somepath/threadcount_`date '+%Y-%m-%d'`.log

#log the processes using the most threads
ps -eLf | awk '{print $2}' | grep -v PID | uniq -c | sort -nr | head -10 | awk '{print $2,$1}' > /somepath/threadhogs_`date '+%Y-%m-%d_%H-%M-%S'`.log

#send output of top to a file, sorted by memory usage
top -b -n 1 -o RES > /somepath/top_`date '+%Y-%m-%d_%H-%M-%S'`.log

相关内容