当同时请求数超过约 256 个时，Apache 的性能会急剧下降

Question

在这种情况下我会做的是运行

strace -f -p <PID> -tt -T -s 500 -o trace.txt

在 ab 测试期间，检查某个 Apache 进程，直到捕获其中一个响应缓慢。然后查看trace.txt。

-tt和选项-T为您提供每个系统调用的开始和持续时间的时间戳，以帮助识别缓慢的系统调用。

您可能会发现一个缓慢的系统调用，例如open()或stat()，或者您可能会发现一个快速调用，poll()后面紧跟着（可能还有多个）调用。如果您发现一个正在对文件或网络连接进行操作的调用（很有可能），请向后查看跟踪，直到找到该文件或连接句柄。对同一句柄的早期调用应该可以让您了解正在poll()等待什么。

看看这个-c选项，这是一个好主意。您是否确保您跟踪的 Apache 子进程在这段时间内至少处理了一个缓慢的请求？（我甚至不确定除了strace同时在所有子进程上运行之外，您还能如何做到这一点。）

不幸的是，strace它无法让我们全面了解正在运行的程序在做什么。它只跟踪系统调用。程序内部可以发生很多事情，而不需要向内核询问任何事情。要弄清楚是否发生了这种情况，您可以查看每个系统调用开始的时间戳。如果您看到明显的间隙，那就是时间流逝的地方。这不容易被抓取，而且系统调用之间总是有小的间隙。

既然你说 CPU 使用率保持较低，那么大概系统调用之间没有发生过多的事情，但值得检查。

仔细查看输出ab：

响应时间的突然增加（似乎在 150 毫秒到 3000 毫秒之间没有响应时间）表明在某个地方发生了特定的超时，该超时在超过 256 个同时连接时触发。如果内存或 CPU 周期正常 IO 不足，则预计降级会更平稳。

其次，响应缓慢ab表明 3000ms 都花在了该connect阶段。几乎所有的响应都花费了 30ms 左右，但有 5% 的响应花费了 3000ms。这表明网络是问题所在。

你从哪里运行ab？你能从与 Apache 机器相同的网络尝试吗？

要获得更多数据，请尝试tcpdump在连接的两端运行（最好ntp在两端都运行，以便同步两次捕获。）并查找任何 tcp 重传。Wireshark 特别适合分析转储，因为它会以不同的颜色突出显示 tcp 重传，使其易于查找。

查看您有权访问的任何网络设备的日志也可能是值得的。我最近遇到了一个问题，我们的防火墙可以处理以 kb/s 为单位的带宽，但无法处理每秒接收的数据包数量。它最多达到每秒 140,000 个数据包。对您的ab运行进行一些快速计算后，我相信您会看到每秒大约 13,000 个数据包（忽略 5% 的慢速请求）。也许这就是您遇到的瓶颈。这种情况发生在 256 左右可能纯粹是巧合。

Answer 1