监控 Linux 上的顶级进程以进行追溯故障排除

监控 Linux 上的顶级进程以进行追溯故障排除

我经常遇到服务器问题,由于 CPU 利用率过高而无法访问,然后必须重新启动或关闭服务器。

我使用 collectd 和 graphite 来收集统计数据,但我还没有找到将此类信息放入时间序列数据库的方法。

是否有一种工具或方法可以回顾性地监控顶级流程?

答案1

我建议使用网络数据并将时间窗口设置为更长的时间段。我相信它默认为最后一小时,但我将服务器设置为保留 12 小时的数据。

您可以使用的主要指标是每个应用程序组的 CPU% 与时间的关系:

在此处输入图片描述

相关内容