NGINX:流量突然激增导致磁盘写入峰值和/或工作者不足错误,从而导致 500 错误

NGINX:流量突然激增导致磁盘写入峰值和/或工作者不足错误,从而导致 500 错误

我一直在尝试诊断我们生产服务器上的一个问题。我们有一台运行 NGINX 的服务器作为负载平衡器,它将请求分配到四个应用服务器之间。在测试网站时,我们一天中至少会遇到几次仅持续几秒钟的 500 错误。

通过查看错误日志和访问日志以及有关 New Relic 和我们的托管服务的图表,我注意到了一些事情......

每天有几次,负载均衡器上的磁盘写入量会突然大幅增加。我确信这是由于在短时间内向访问日志写入了太多请求(昨天超过 300 MB,其中大部分是在很短的时间内写入的)... 几乎就像是一堆请求被阻止、堆积起来然后同时吐出。

此外,我偶尔会在错误日志中收到“768 个工作连接数不够……”的消息。我猜我只需要提高这个限制,但我不确定提高多少,或者如何找到可行的最大值。

我不确定这两个问题是否有关联,或者其中一个问题是否导致了随机出现 500 个错误。

非常感谢您对进一步诊断的任何见解或建议!

相关内容