Web 服务器上的内存泄漏

Question

每分钟启动 sar 并输出 ps 表。看我的详细回答这里。

下次服务器崩溃时，用来sar -r帮助追踪什么时候它发生了。现在使用 ps-cronjob 或我的输出github 上 ps 的 Perl 包装器，找出哪个进程可能是罪魁祸首。

假设服务器在 12:00:00 到 13:00:00 之间发生了爆炸。使用sar -r -s 12:00:00 -e 13:00:00。由此您应该看到数据出现峰值。（如果更容易的话，有一个基于 Java 的实用程序可以进行绘图，但通常不值得这么麻烦。）假设您在 12:15 看到一个峰值（或一个波谷）。现在扫描 ps 列输出的时间范围（例如 12:00 到 12:15），按 pid 排序，然后按时间排序，然后查看内存列：

awk '/^=== .* 12:00:/,/^=== .* 12:16:/' /var/log/sa/ps/today |
 sort -k 1n -k 16

（排序选项假定时间位于第 16 列，但情况可能是也可能不是）。现在您可以再次通过 awk 过滤该输出以查找输出行之间的差异：

... | awk 'lastpid && lastpid==$1 && last != $0 { print} /^[0-9]/ { lastpid=$1;last=$0; }'

这是一个相当粗糙的过滤器。对于某些进程（其命令行一直在变化，例如 mysql、postgresql 和 snmpd），这不会很有帮助，但希望您可以调整 awk 以帮助您找到罪魁祸首。

Answer 1