SSH 连接仅在某些客户端上超时

Question

经过大量的调查和谷歌搜索，我终于找到了根本原因，并最终找到了解决办法。排除网络和 DNS 问题后，我只剩下协议问题了。由于 Ping 可以工作，而 telnet 到端口 1 却不行，所以我知道这不是端口问题。在用 UDP 和 TCP 测试流量后，结果发现 TCP 是唯一出现问题的协议。

我跑去tcpdump检查正在交换的数据包，立即注意到只有初始 SYN 数据包从客户端发送到服务器，并且没有返回 ACK。不幸的是，尚未找到根本原因。

经过netstat -s多次尝试 ssh 连接，唯一不合适的值是“由于时间戳，被动连接被拒绝”。我发现这个文章（日语）与此问题相关，并建议与 NAT 环境中的 tcp_tw_recycle 有关系。最终的结论是禁用 tcp_tw_recycle，结果是打开的 TCP 连接数增加了一倍，我们能够解决这个问题。这个 ServerFault回答详细讨论其后果。

希望这个答案对其他最终处理此极端情况的人有用。此外，有人对此解决方案有任何其他建议/警告吗？

Answer 1

经过大量的调查和谷歌搜索，我终于找到了根本原因，并最终找到了解决办法。排除网络和 DNS 问题后，我只剩下协议问题了。由于 Ping 可以工作，而 telnet 到端口 1 却不行，所以我知道这不是端口问题。在用 UDP 和 TCP 测试流量后，结果发现 TCP 是唯一出现问题的协议。

我跑去tcpdump检查正在交换的数据包，立即注意到只有初始 SYN 数据包从客户端发送到服务器，并且没有返回 ACK。不幸的是，尚未找到根本原因。

经过netstat -s多次尝试 ssh 连接，唯一不合适的值是“由于时间戳，被动连接被拒绝”。我发现这个文章（日语）与此问题相关，并建议与 NAT 环境中的 tcp_tw_recycle 有关系。最终的结论是禁用 tcp_tw_recycle，结果是打开的 TCP 连接数增加了一倍，我们能够解决这个问题。这个 ServerFault回答详细讨论其后果。

希望这个答案对其他最终处理此极端情况的人有用。此外，有人对此解决方案有任何其他建议/警告吗？

SSH 连接仅在某些客户端上超时

答案1

相关内容