平均负载较高但资源未充分利用

Question 1

您可能需要启用 Apache 的 mod_status (http://httpd.apache.org/docs/2.0/mod/mod_status.html)，这样您就可以准确了解 Web 服务器内部发生的情况。具体来说，您将获得每个请求的 CPU 消耗数字。

从 vmstat/iostat 获取一些快照也不会有什么坏处。

另外，您使用的是 MyISAM 还是 InnoDB 表？当您遇到这些负载峰值时，您从 MySQL 中的“SHOW FULL PROCESSLIST\G”中得到什么？我感觉您在 MySQL 中遇到了锁/查询争用，这会延长内核运行队列的长度。

Answer

您可能需要启用 Apache 的 mod_status (http://httpd.apache.org/docs/2.0/mod/mod_status.html)，这样您就可以准确了解 Web 服务器内部发生的情况。具体来说，您将获得每个请求的 CPU 消耗数字。

从 vmstat/iostat 获取一些快照也不会有什么坏处。

另外，您使用的是 MyISAM 还是 InnoDB 表？当您遇到这些负载峰值时，您从 MySQL 中的“SHOW FULL PROCESSLIST\G”中得到什么？我感觉您在 MySQL 中遇到了锁/查询争用，这会延长内核运行队列的长度。

Question 2

任何未处于 S 状态（睡眠）的命令都将被视为活动进程。这包括处于 R 运行状态和 D 阻塞状态的进程。（后者通常发生在等待磁盘或网络设备的 IO 时）您还可能会看到僵尸进程在平均负载下徘徊。

要找到这些内容的具体列表，请尝试以下命令：ps -efl | cut -c3- | egrep -v "^S" 您没有列出很多 iowait 时间，因此它可能是僵尸。

mysqld 的 100% CPU 使用率也可能解释您的间歇性挂断。（也许只是“有时”被固定？）平均负载可能是个转移注意力的花招，或者不是问题的根本原因。

此外，看起来您的机器使用了 4GB RAM 中的 3.5GB。 free -m可以让您更好地了解正在使用的内容。

Answer

任何未处于 S 状态（睡眠）的命令都将被视为活动进程。这包括处于 R 运行状态和 D 阻塞状态的进程。（后者通常发生在等待磁盘或网络设备的 IO 时）您还可能会看到僵尸进程在平均负载下徘徊。

要找到这些内容的具体列表，请尝试以下命令：ps -efl | cut -c3- | egrep -v "^S" 您没有列出很多 iowait 时间，因此它可能是僵尸。

mysqld 的 100% CPU 使用率也可能解释您的间歇性挂断。（也许只是“有时”被固定？）平均负载可能是个转移注意力的花招，或者不是问题的根本原因。

此外，看起来您的机器使用了 4GB RAM 中的 3.5GB。 free -m可以让您更好地了解正在使用的内容。

Question 3

我没有给你完整的解决方案，但我有一些猜测。

您的 mysql 服务器似乎只有 128MB 左右的池。如果 LAMP 系统使用一个中等大小的数据库，这似乎偏低。这将产生大量磁盘 I/O。此外，如果 mysql 出现 CPU 峰值，请打开慢查询日志记录一段时间，看看会出现什么。可能需要一个或两个新索引。
对于可以读取现代内核中大多数进程计数器的 top 替代品，我推荐 atop。除其他功能外，它还可以显示进程的磁盘访问情况。请注意，atop 在其设置中有一个正在运行的守护进程，因此您可能需要在完成后将其卸载。
请谨慎对待您信任的 CPU 使用率数字。它们是使用略有不同的方法生成的。根据我的经验，为了显示总体 CPU 使用率，vmstat 会给出“最佳”（== 最接近感知负载）数字。
Apache 进程正在认真工作。也许需要对 PHP 代码进行一些优化？

但是，从上面的数据来看，我并不清楚您的设置存在多大问题。虽然您可能可以发挥出更多的性能，但您可能已经接近极限了。

更新：

澄清以下评论。

典型的面向网络的 TCP 服务器由一个守护进程组成，该守护进程具有一个监听套接字和多个与客户端的打开连接。每个套接字都有一个进程在等待它（一个进程可能在多个套接字上等待）。这些进程将处于休眠状态，当某些数据到达时将被操作系统唤醒。如果它是高效的（例如静态 Web 服务器），您可能永远不会看到它在运行，因为它只需要大约 100 微秒就可以唤醒、提供一些数据并返回休眠状态。

更新 2：

现代操作系统将空闲内存分配给新的磁盘缓冲区，直到内存耗尽，然后再重新使用最少使用的缓冲区。因此，内存将始终是满的。此外，两个进程可能会以多种方式将同一页内存报告为其大小的一部分。这样做的结果是：a) 现代操作系统总是内存不足，b) 很难准确判断内存的使用情况。最好的简单指示是争取使缓冲区和缓存数字占物理内存的很大一部分。在此框中，超过 30% 的内存用于缓存磁盘数据。

Answer