服务器连接问题 - CPU/RAM 正常

服务器连接问题 - CPU/RAM 正常

最近我们遇到了无法连接 Redis 集群上的多个主服务器的情况。

来自我们代码库的连接超时了。在此期间,我们也无法通过 SSH 进入该框,这实际上就是将我们锁定了。

这种情况发生过多次,每次 CPU 使用率都在 20% 左右,内存使用率也在 20% 左右。每次事件期间的 tcp 连接数在 7k 到 12k 之间变化,远低于我们预期的警戒水平。

已建立的连接继续正常运行。这些现有连接中有我们的指标导出器,因此它们仍能收集有关连接/CPU 等方面的指标。

随着现有连接的消失,网络输入/输出将慢慢下降,而新的连接根本无法连接,就好像被服务器拒绝了一样。

我们已经检查了 SOMAXCONN 和可用文件描述符等设置,但仍然无法确定无法建立新连接的原因,因为在发生事件之前我们检查的任何统计数据中都没有明显异常。

这些服务器在 AWS 上的 x2gd.medium 实例类型上运行 Amazon Linux 2。

当大多数流量在另一个端口上时,无法通过 SSH 登录似乎很奇怪。

有谁知道为什么所有明显的指标看起来都正常但连接却无法建立?

相关内容