我正在将服务活动记录到 grafana,发现我的基于 Linux 的服务器每隔 20 分钟就会出现一次负载大幅上升。
有没有简单的方法可以确定哪个进程导致了峰值。我原本以为这是一个 cron 作业,但由于机器运行了大量 docker 容器,因此仅仅查看 crontab 并不像听起来那么简单。确定负责的进程会更好。
答案1
如果您知道如何登录或构建 Grafana 解决方案,并且有证据表明资源峰值会定期再次出现,那么我认为通过实时监视服务器top
并查看正在发生的事情会很容易。
- 等待系统峰值
- 记录输出
top
和/或ps