如何调查随机日期 15 分钟内 100% CPU 负载

如何调查随机日期 15 分钟内 100% CPU 负载

“我有一台在 Apache2 上运行网站的服务器,它位于 Cloudflare 后面。根据“htop”,该服务器的正常负载为 10%。然而,在随机的日期/时间,服务器负载会飙升至 100%,导致网站停机约 15 分钟。我从 AWS EC2 状态监控中了解到了这个问题。由于我并不是一直在线,因此在高负载发生时我看不到“htop”输出。

为了进一步调查该问题,我需要收集以下数据:

  1. 崩溃时不同进程的 CPU 使用率:我需要监控崩溃期间服务器上运行的各种进程的 CPU 使用率。这些数据将帮助我确定哪个进程导致了高负载。

  2. 崩溃结束时 HTTP 请求数和访问的 URL:我需要收集高负载期间对服务器发出的 HTTP 请求数以及访问的 URL。这些数据将帮助我确定是否有特定的 URL 或一组 URL 导致高负载。

一旦我收集了这些数据,我就可以对其进行分析,以找出高负载的根本原因,并制定解决方案以防止将来再次发生。

相关内容