Zabbix 代理 - CPU 使用率高

Question 1

我认为瓶颈是光盘。以下是我的理由：

您的 Web 服务器非常繁忙。Zabbix 很慢，我怀疑是从磁盘读取的（也可能是从网络读取的）。

再次运行 strace，并在 Zabbix 中找到文件描述符

然后检查文件描述符是文件还是套接字：

ls -l /prod/<PID_of_straced_process>/fd/<FD_from_strace>

编辑1：
您不应该更改 TIME_WAIT 超时。小型 HTTP 保持活动或没有 HTTP 保持活动的问题在于您会增加延迟和带宽。相反，您应该稍微增加 HTTP 保持活动并安装/启用 SPDY。

编辑2：使用dstat -ta 10并将第一行与其余行进行比较。第一行是自启动以来的平均值。接下来的几行是 10 秒平均值（最后一个参数）。

编辑3：检查您是否没有丢失数据包，使用类似 smokeping 的工具从网络外部监控服务器和网站。您有大量处于 CLOSING、FIN_WAIT1、FIN_WAIT2、SYN_RECV、LAST_ACK 状态的连接。我认为您的网络拥塞或您有很多短暂的连接（由较高的 TIME_WAIT/ESTABILISHED 比率确认）。请参阅：http://en.wikipedia.org/wiki/Transmission_Control_Protocol#Protocol_operation

Answer

我认为瓶颈是光盘。以下是我的理由：

您的 Web 服务器非常繁忙。Zabbix 很慢，我怀疑是从磁盘读取的（也可能是从网络读取的）。

再次运行 strace，并在 Zabbix 中找到文件描述符

然后检查文件描述符是文件还是套接字：

ls -l /prod/<PID_of_straced_process>/fd/<FD_from_strace>

编辑1：
您不应该更改 TIME_WAIT 超时。小型 HTTP 保持活动或没有 HTTP 保持活动的问题在于您会增加延迟和带宽。相反，您应该稍微增加 HTTP 保持活动并安装/启用 SPDY。

编辑2：使用dstat -ta 10并将第一行与其余行进行比较。第一行是自启动以来的平均值。接下来的几行是 10 秒平均值（最后一个参数）。

编辑3：检查您是否没有丢失数据包，使用类似 smokeping 的工具从网络外部监控服务器和网站。您有大量处于 CLOSING、FIN_WAIT1、FIN_WAIT2、SYN_RECV、LAST_ACK 状态的连接。我认为您的网络拥塞或您有很多短暂的连接（由较高的 TIME_WAIT/ESTABILISHED 比率确认）。请参阅：http://en.wikipedia.org/wiki/Transmission_Control_Protocol#Protocol_operation

Question 2

zabbix-agentd 每个 net.tcp.listen 项读取 /proc/net/tcp。文件大小约为 100K(行) * 150 字节 = 15MB，如果您有许多 tcp.listen 监控项，则此读取文件操作将消耗大量 CPU，因为数据大小为 15MB*item_number。

为了解决此性能问题，建议使用 net.tcp.port 而不是 net.tcp.listen。

Answer

zabbix-agentd 每个 net.tcp.listen 项读取 /proc/net/tcp。文件大小约为 100K(行) * 150 字节 = 15MB，如果您有许多 tcp.listen 监控项，则此读取文件操作将消耗大量 CPU，因为数据大小为 15MB*item_number。

为了解决此性能问题，建议使用 net.tcp.port 而不是 net.tcp.listen。

Question 3

迟来的回答（可能对某些人有帮助）：

这种情况经常发生，取决于您对 Zabbix 的请求，通常是第三方问题或 PEBKAC。

禁用检查（然后重新启动 zabbix 服务器）以查看哪个检查导致负载过重。据此分析问题。

比如，我在使用数据库监视器时遇到了几个问题，都是由 ODBC 引起的

Answer

迟来的回答（可能对某些人有帮助）：

这种情况经常发生，取决于您对 Zabbix 的请求，通常是第三方问题或 PEBKAC。

禁用检查（然后重新启动 zabbix 服务器）以查看哪个检查导致负载过重。据此分析问题。

比如，我在使用数据库监视器时遇到了几个问题，都是由 ODBC 引起的

Zabbix 代理 - CPU 使用率高

答案1

答案2

答案3

相关内容