高负载 Apache 服务器的性能调优

Question 1

首先我承认我不太了解在云端运行东西 - 但根据我在其他地方的经验，我认为这个网络服务器配置反映的流量相当低。运行队列如此之大表明没有足够的 CPU 来处理它。运行队列中还有什么？

我们可能允许了太多的 KeepAlive 请求

不 - keeplive 仍然能提高性能，现代浏览器非常聪明，知道何时进行管道传输以及何时并行运行请求，尽管 5 秒的超时时间仍然相当长，而且你有一个很多服务器等待时间 - 除非您遇到严重的延迟问题，否则我建议将其降低到 2-3。这应该会缩短运行队列。

如果您尚未在 Web 服务器上安装 mod_deflate - 那么我建议您这样做 - 并将 ob_gzhandler() 添加到您的 PHP 脚本中。您可以将其作为自动添加项执行：

if(!ob_start("ob_gzhandler")) ob_start();

（是的，压缩会使用更多的 CPU - 但是您应该通过让服务器更快地退出运行队列/处理更少的 TCP 数据包来节省总体 CPU - 而且作为奖励，您的网站也会更快）。

我建议为 MaxRequestsPerChild 设置一个上限 - 比如说 500。这只会在出现内存泄漏时允许进程进行一些周转。您的 httpd 进程看起来非常庞大 - 确保您已删除所有不需要的 apache 模块，并确保您使用良好的缓存信息提供静态内容。

如果您仍然看到问题，那么问题可能出在 PHP 代码中（如果您切换到使用 fastCGI，这应该是显而易见的，而不会造成任何重大的性能损失）。

更新

如果静态内容在各个页面上差异不大，那么可能值得尝试一下：

if (count($_COOKIE)) {
    header('Connection: close');
}

PHP 脚本也是如此。

Answer

首先我承认我不太了解在云端运行东西 - 但根据我在其他地方的经验，我认为这个网络服务器配置反映的流量相当低。运行队列如此之大表明没有足够的 CPU 来处理它。运行队列中还有什么？

我们可能允许了太多的 KeepAlive 请求

不 - keeplive 仍然能提高性能，现代浏览器非常聪明，知道何时进行管道传输以及何时并行运行请求，尽管 5 秒的超时时间仍然相当长，而且你有一个很多服务器等待时间 - 除非您遇到严重的延迟问题，否则我建议将其降低到 2-3。这应该会缩短运行队列。

如果您尚未在 Web 服务器上安装 mod_deflate - 那么我建议您这样做 - 并将 ob_gzhandler() 添加到您的 PHP 脚本中。您可以将其作为自动添加项执行：

if(!ob_start("ob_gzhandler")) ob_start();

（是的，压缩会使用更多的 CPU - 但是您应该通过让服务器更快地退出运行队列/处理更少的 TCP 数据包来节省总体 CPU - 而且作为奖励，您的网站也会更快）。

我建议为 MaxRequestsPerChild 设置一个上限 - 比如说 500。这只会在出现内存泄漏时允许进程进行一些周转。您的 httpd 进程看起来非常庞大 - 确保您已删除所有不需要的 apache 模块，并确保您使用良好的缓存信息提供静态内容。

如果您仍然看到问题，那么问题可能出在 PHP 代码中（如果您切换到使用 fastCGI，这应该是显而易见的，而不会造成任何重大的性能损失）。

更新

如果静态内容在各个页面上差异不大，那么可能值得尝试一下：

if (count($_COOKIE)) {
    header('Connection: close');
}

PHP 脚本也是如此。

Question 2

您应该考虑安装异步反向代理，因为 W 状态的进程数量也相当高。您的 Apache 进程似乎花费大量时间通过网络向慢速客户端发送内容，但网络因此被阻止。Nginx 或 lighttpd 作为 Apache 服务器的前端可以大大减少 W 状态的进程数量。是的，您应该限制 keepalive 请求的数量。也许值得尝试关闭 keepalive。

顺便说一句，107 个 Apache 进程对于 22 rps 来说太高了，我仅使用 5 个 Apache 进程就能提供 100-120 rps。下一步可能是分析您的应用程序。

Answer

您应该考虑安装异步反向代理，因为 W 状态的进程数量也相当高。您的 Apache 进程似乎花费大量时间通过网络向慢速客户端发送内容，但网络因此被阻止。Nginx 或 lighttpd 作为 Apache 服务器的前端可以大大减少 W 状态的进程数量。是的，您应该限制 keepalive 请求的数量。也许值得尝试关闭 keepalive。

顺便说一句，107 个 Apache 进程对于 22 rps 来说太高了，我仅使用 5 个 Apache 进程就能提供 100-120 rps。下一步可能是分析您的应用程序。

Question 3

您的 vmstat 中有两行显示您的 CPU 等待时间相当长，并且在这两行周围，您进行了相当多的写入 (io - bo) 和上下文切换。我会查看写入阻塞的原因以及如何消除这种等待。我认为最大的改进在于改进磁盘 IO。检查 syslog - 将其设置为异步写入。确保您的控制器的写入缓存正常工作（检查它 - 您的电池可能坏了）。

Keepalive 不会导致您的性能问题，如果您不在前面运行缓存，它可以节省您设置连接的时间。您可以稍微增加 MaxSpareServers，以便在关键时刻您不必等待所有分叉。

Answer

您的 vmstat 中有两行显示您的 CPU 等待时间相当长，并且在这两行周围，您进行了相当多的写入 (io - bo) 和上下文切换。我会查看写入阻塞的原因以及如何消除这种等待。我认为最大的改进在于改进磁盘 IO。检查 syslog - 将其设置为异步写入。确保您的控制器的写入缓存正常工作（检查它 - 您的电池可能坏了）。

Keepalive 不会导致您的性能问题，如果您不在前面运行缓存，它可以节省您设置连接的时间。您可以稍微增加 MaxSpareServers，以便在关键时刻您不必等待所有分叉。

Question 4

第一个建议：禁用 keepalive。我只在能够确定特定情况时才需要它，即启用 Keepalive 后性能会提高，但总体而言每秒请求数会减少。

第二个建议：设置 MaxRequestsPerChild。我在这里回应 symcbean，它将有助于在发生内存泄漏时进行进程翻转。500 是一个很好的起点。

第三个建议：增加 MaxClients。对此的一个大致计算是（物理内存 - 非 httpd 进程使用的内存）/每个 httpd 进程的大小。根据 httpd 的编译方式，此数字最大为 255。我将 250 用于我的公共服务器，以应对 google/yahoo/MS 抓取系统。

第四条建议：增加 MaxSpareServers：例如 4-5x MinSpareServers。

除非这些建议失败，否则我会研究使用反向代理或 memcache 为 DB 实现负载平衡。

Answer