+200 个并发连接后 NGINX 超时

Question 1

您需要在测试期间转储网络连接。虽然服务器可能接近零负载，但您的 TCP/IP 堆栈可能会超负荷。在 netstat 输出中查找 TIME_WAIT 连接。

如果是这种情况，那么您将需要检查调整与 TCP 等待状态、TCP 回收和类似指标相关的 tcp/ip 内核参数。

此外，您还没有描述正在测试的内容。

我总是测试：

静态内容（图像或文本文件）
简单的 php 页面（例如 phpinfo）
申请页面

这可能不适用于你的情况，但我在性能测试时会这么做。测试不同类型的文件可以帮助你找出瓶颈。

即使是静态内容，测试不同大小的文件也很重要，以了解超时和其他指标。

我们有一些静态内容 Nginx 盒，可处理 3000 多个活动连接。因此 Nginx 肯定能做到。

更新：您的 netstat 显示有很多打开的连接。可能需要尝试调整您的 TCP/IP 堆栈。另外，您请求什么文件？Nginx 应该会快速关闭端口。

以下是针对 sysctl.conf 的建议：

net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.tcp_rmem = 4096 87380 8388608
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 30
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1

这些值非常低，但我在高并发 Nginx 盒子上成功使用了它们。

Answer

您需要在测试期间转储网络连接。虽然服务器可能接近零负载，但您的 TCP/IP 堆栈可能会超负荷。在 netstat 输出中查找 TIME_WAIT 连接。

如果是这种情况，那么您将需要检查调整与 TCP 等待状态、TCP 回收和类似指标相关的 tcp/ip 内核参数。

此外，您还没有描述正在测试的内容。

我总是测试：

静态内容（图像或文本文件）
简单的 php 页面（例如 phpinfo）
申请页面

这可能不适用于你的情况，但我在性能测试时会这么做。测试不同类型的文件可以帮助你找出瓶颈。

即使是静态内容，测试不同大小的文件也很重要，以了解超时和其他指标。

我们有一些静态内容 Nginx 盒，可处理 3000 多个活动连接。因此 Nginx 肯定能做到。

更新：您的 netstat 显示有很多打开的连接。可能需要尝试调整您的 TCP/IP 堆栈。另外，您请求什么文件？Nginx 应该会快速关闭端口。

以下是针对 sysctl.conf 的建议：

net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.tcp_rmem = 4096 87380 8388608
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 30
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1

这些值非常低，但我在高并发 Nginx 盒子上成功使用了它们。

Question 2

另一个假设。您已经增加了worker_rlimit_nofile，但最大客户端数量是在文档中定义作为

max_clients = worker_processes * worker_connections

如果您尝试增加到worker_connections8192 会怎么样？或者，如果有足够的 CPU 核心，增加worker_processes？

Answer

另一个假设。您已经增加了worker_rlimit_nofile，但最大客户端数量是在文档中定义作为

max_clients = worker_processes * worker_connections

如果您尝试增加到worker_connections8192 会怎么样？或者，如果有足够的 CPU 核心，增加worker_processes？

Question 3

我遇到了一个非常类似的问题，nginx 盒作为 apache 服务器上游的负载平衡器。

就我而言，我能够将问题隔离为与网络相关的问题，因为上游 Apache 服务器变得过载。当整个系统处于负载状态时，我可以使用简单的 Bash 脚本重新创建它。根据其中一个挂起进程的 strace，connect 调用正在获取 ETIMEDOUT。

这些设置（在 nginx 和上游服务器上）为我消除了这个问题。在进行这些更改之前，我每分钟会遇到 1 或 2 次超时（每秒处理约 100 个请求），现在为 0。

net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_fin_timeout = 20
net.ipv4.tcp_max_syn_backlog = 20480
net.core.netdev_max_backlog = 4096
net.ipv4.tcp_max_tw_buckets = 400000
net.core.somaxconn = 4096

我不建议使用 net.ipv4.tcp_tw_recycle 或 net.ipv4.tcp_tw_reuse，但如果你想使用其中一个，就选择后者。如果存在任何延迟，它们可能会导致奇怪的问题，而后者至少是两者中更安全的。

我认为将 tcp_fin_timeout 设置为 1 也可能会造成一些麻烦。尝试将其设置为 20/30 - 仍然远低于默认值。

Answer