如何确定 EC2 LAMP 实例是否受网络限制？

Question

我们在 Speedtest.net 的一个较高速度统计集群上遇到了类似的问题 - 并且我们发现我们案例中的解决方案并未在 AWS 上公开记录；我们必须直接与 Nitro 团队合作来解决这个问题。

我们的机器带宽低，PPS 低（每秒约 10,000 个数据包），一直在丢包。我们无法弄清楚丢包的原因，因为我们完全符合机器性能的公共指导方针。这台机器是一个 statsd 聚合器，因此数千台机器向它发送 UDP 数据报。“流”计数是一个关键点。

事实证明，如果您在监听端口上有任何安全组限制发送 IP 范围，AWS 会对该给定端口施加 conntrack 限制。如果超出连接数限制，AWS 将默默丢弃数据包。除了在网络图上看到“削波”峰值外，没有统计数据可以揭示这一点。实例大小越大，conntrack 配额就越大。

解决方案是将给定服务端口的入站允许源 IP 范围设置为 0.0.0.0 - 这会关闭 AWS 端的连接跟踪并删除 conntrack 限制。最终，这意味着您必须通过仔细的子网划分和机器内核防火墙自行处理防火墙。

我不能说您是否遇到了同样的问题，但这是我们遇到的导致 AWS 出现无法解释的网络问题的问题。

Answer 1

我们在 Speedtest.net 的一个较高速度统计集群上遇到了类似的问题 - 并且我们发现我们案例中的解决方案并未在 AWS 上公开记录；我们必须直接与 Nitro 团队合作来解决这个问题。

我们的机器带宽低，PPS 低（每秒约 10,000 个数据包），一直在丢包。我们无法弄清楚丢包的原因，因为我们完全符合机器性能的公共指导方针。这台机器是一个 statsd 聚合器，因此数千台机器向它发送 UDP 数据报。“流”计数是一个关键点。

事实证明，如果您在监听端口上有任何安全组限制发送 IP 范围，AWS 会对该给定端口施加 conntrack 限制。如果超出连接数限制，AWS 将默默丢弃数据包。除了在网络图上看到“削波”峰值外，没有统计数据可以揭示这一点。实例大小越大，conntrack 配额就越大。

解决方案是将给定服务端口的入站允许源 IP 范围设置为 0.0.0.0 - 这会关闭 AWS 端的连接跟踪并删除 conntrack 限制。最终，这意味着您必须通过仔细的子网划分和机器内核防火墙自行处理防火墙。

我不能说您是否遇到了同样的问题，但这是我们遇到的导致 AWS 出现无法解释的网络问题的问题。

相关内容