查找导致随机 502 网关错误的 Nginx/PHP-FPM 瓶颈

Question 1

官方建议：worker_processes = CPU 核心数

放worker_processes 16;

Answer

官方建议：worker_processes = CPU 核心数

放worker_processes 16;

Question 2

负载均衡器（例如 HAProxy 和 nginx）偶尔会出现 502 错误，通常是由于 LB 和 Web 服务器之间的中途中断导致的。

尝试通过 GDB 运行您的一个 Web 服务器或其测试副本，并查看在生成测试流量时是否看到分段错误（使用 ab 或 jMeter 或类似程序来模拟流量）。

我最近不得不解决一个非常相似的场景/问题。我已经排除了资源等导致问题的原因，因为我有相当全面的监控可以帮助我。最后我发现 502 错误来自负载均衡器后面的 Web 服务器，它向 LB 返回了无效（在本例中为空）的 HTTP 响应。

我打开一个 Web 服务器，停止了它，然后通过 gdb 重新启动它，然后浏览网站。最后，在点击几下之后，我看到了分段错误，这导致了 502 错误。我从 GDB 中获取回溯并将其作为错误提交给 PHP 团队，但对我来说唯一的解决办法是切换发行版以解决存在的 PHP 错误。

段错误导致 Web 服务器向 LB 发送无效内容，而 LB 显示 502 错误，因为就它而言，Web 服务器在“流程中途”消失。

我知道这不能直接回答你的问题，但这是一个开始寻找的地方。假设你确实看到了段错误，你可以从 GDB 获取堆栈跟踪，然后你有望反向工作并找到导致段错误的函数。