如何确定是什么原因导致我的带有 nginx 的节点服务器在高请求率时崩溃？

Question

性能调优很有趣，但更重要的是，Nginx、API、数据库和测试脚本的“一切”都来自同一台服务器。至少您的答案中有一些线索 - 您通过测试多租户数据库与单租户数据库提供了一些见解，并看到了显著的改进。

快速检查：worker_connections 30000 太多了。绝对最大值是 worker_rlimit_nofile / worker_processes。理论最大值可能因很多因素而异，但您不需要配置超过4096。

自从worker_processes 自动；根据您的核心，最多可产生 7 个，继续进行硬编码工作进程 5；这将产生最多 4096 * 5 个 worker_connections（这个数字仍然是 2000 Postgres 的 10 倍），理论上它将释放 CPU 以用于其他任务。Nginx 非常智能，它会将连接任务集中在更少的核心上，并留下至少 1 个核心用于除连接请求之外的 Nginx 内部任务……如果看起来这个 mod 产生了显著的结果，但结果很小，比如 +15-25%，那么您可以考虑实际调整为仅 4 个 worker_processes，甚至更多，如果可能的话，调整所有软件以使用 CPU Affinity。CPU Affinity 是 Nginx 的一个功能，但除非 PG、Python 等可以很好地运行，否则仅靠它可能还不够。

如果涉及 SSL，您可以通过调用释放内存ssl_缓冲区大小4k；与 Nginx 默认的 16k 相比。而且在我看来，您只需要 TLSv1.2，因为如果客户端可以处理，它将选择 v1.3，而好的客户端不需要坚持使用 v1.1。SSL 的加入很好地解释了为什么 9 个 DB 租户产生 225，而 1 个 DB 产生 360。我不是说要放弃它……我是说要调整它，并提供这部分解释为什么引入 Nginx 会导致开销。这与连接管理有关，而不仅仅是吞吐量，特别是当您在整个测试过程中逐步引入新的“客户端”时，除非重用连接，否则必须进行握手。

我们没有看到您的服务器{...}conf 详细信息或上游 {...}其中包含有关 keepalive 等的详细信息。显然，管理 Keepalive（代理连接的数量）很重要，并且需要在这里进行一些调整。

还有许多其他因素，但请尝试使用当前反馈进行快速测试，并考虑提供一些有关您的配置的更多相关详细信息。

请记住，“每秒请求数”并不总是等于“每秒事务数”。开始对结果进行分类，区分处理的请求数与完成的请求或“事务”数（即成功的用例请求）。我非常肯定，您会明白，理解这一点对于确定时间花在哪里以及需要进一步调整系统的位置至关重要。

Answer 1