大量套接字处于 TIME-WAIT 状态,服务器在负载下无响应

大量套接字处于 TIME-WAIT 状态,服务器在负载下无响应

我们的应用在高负载下变得反应迟钝,等待时间更长。进程使用率异常低(每个进程的 CPU 利用率约为 15%,我们的应用在 8 个进程上运行)。

Nginx 错误日志输出显示了以下内容:

2014/12/04 03:39:31 [crit] 24383#0: *2008067 connect() to 127.0.0.1:4567 failed (99: Cannot assign requested address) while connecting to upstream, client: 108.162.246.229, server: example.org, request: "GET /socket.io/?EIO=3&transport=polling&t=1417682366937-11501 HTTP/1.1", upstream: "http://127.0.0.1:4567/socket.io/?EIO=3&transport=polling&t=1417682366937-11501", host: "example.org", referrer: "https://example.org/unread"

我所看到的

  • 产量ss -tan | grep TIME-WAIT | wc -l大约有 30,000,哎哟!
  • 该应用程序将响应,然后:
    • 所有进程的 CPU 使用率突然降至接近 0
    • 应用程序将变得无响应
    • 约 30 秒后,应用程序将重新启动,并无限重复

需要启动应用程序,因此创可贴解决方案:

  • echo 28000 65535 > ip_local_port_range(MongoDB 在 27101 上运行,因此我选择了高于该值的下限)
  • echo 1 > /proc/sys/net/ipv4/tcp_tw_reuse
  • echo 1 > /proc/sys/net/ipv4/tcp_tw_recycle

这将状态下的插座数量减少TIME-WAIT到更易于管理的~400。


以下是其中的一段ss -tan | grep TIME-WAIT

State      Recv-Q Send-Q        Local Address:Port          Peer Address:Port
TIME-WAIT  0      0                 127.0.0.1:29993            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:28522            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:29055            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:31849            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:32744            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:28304            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:34858            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:36707            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:34756            127.0.0.1:4567  
TIME-WAIT  0      0            104.131.91.122:443          108.162.250.6:55549 
TIME-WAIT  0      0                 127.0.0.1:32629            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:34544            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:34732            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:33820            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:33609            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:34504            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:32463            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:35089            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:30003            127.0.0.1:4567  
TIME-WAIT  0      0            104.131.91.122:443         199.27.128.100:36383 
TIME-WAIT  0      0                 127.0.0.1:33040            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:34038            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:28096            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:29541            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:30022            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:31375            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:29827            127.0.0.1:4567  
TIME-WAIT  0      0                 127.0.0.1:29334            127.0.0.1:4567  

我的问题:

  • 其中很多都是从 127.0.0.1 到 127.0.0.1,这正常吗?对等地址不应该都来自外部 IP 吗?
    • 我们的 Node.js 应用程序位于 nginx 代理后面,位于 CloudFlare DNS 后面,这限制了唯一入站 IP 地址的数量,这可能相关吗?
  • 我如何适当地减少状态下的插座数量TIME-WAIT
  • 我确信我们没有 3000 个唯一套接字连接每秒,是不是我们这边配置有错误,导致在应该打开一个套接字的时候却打开了数百个?

提前感谢您提供的任何帮助!

答案1

最后,我做了更多研究,读了这篇文章非常优秀的导游在 nginx 代理后面扩展 Node 应用程序。

keepalive当我将参数添加到nginx 中的块时,主要的区别就出现了upstream。事实证明,nginx 工作器不会缓存传入的连接并重新使用它们,从而导致创建数千个新连接(尤其是使用 socket.io 握手等)

@MichaelHampton 建议使用 unix 域套接字也可以很好地解决这个问题。

相关内容