关于 Linux TCP 窗口大小和延迟的说明

Question 1

在对我的流量进行进一步挖掘之后，我发现我的数据不过是一系列小突发，它们之间有短暂的空闲时间。

使用这个有用的工具ss，我能够检索我的连接的当前拥塞窗口大小（参见cwnd输出中的值）：

[用户@localhost ~]$ /usr/sbin/ss -i -t -e | grep -A 1 56001

ESTAB 0 0 192.168.1.1:56001
192.168.2.1:45614 uid:1001 ino:6873875 sk:17cd4200ffff8804 ts sackscalable wscale:8,9 rto:277 rtt:74/1 ato:40 cwnd:36 发送 5.6Mbps rcv_space:5792

我多次运行该工具，发现拥塞窗口大小定期重置为初始值（在我的 Linux 机器上为 10ms）。连接不断循环回到慢启动阶段。在慢启动期间，超过窗口大小的消息数量突发会被延迟，等待与突发的第一个数据包相关的确认。

流量由一系列突发组成这一事实很可能解释了拥塞窗口大小的重置。

通过在空闲期后停用慢启动模式，我能够摆脱延迟。

[用户@主机 ~]$ cat /proc/sys/net/ipv4/tcp_slow_start_after_idle 0

Answer

在对我的流量进行进一步挖掘之后，我发现我的数据不过是一系列小突发，它们之间有短暂的空闲时间。

使用这个有用的工具ss，我能够检索我的连接的当前拥塞窗口大小（参见cwnd输出中的值）：

[用户@localhost ~]$ /usr/sbin/ss -i -t -e | grep -A 1 56001

ESTAB 0 0 192.168.1.1:56001
192.168.2.1:45614 uid:1001 ino:6873875 sk:17cd4200ffff8804 ts sackscalable wscale:8,9 rto:277 rtt:74/1 ato:40 cwnd:36 发送 5.6Mbps rcv_space:5792

我多次运行该工具，发现拥塞窗口大小定期重置为初始值（在我的 Linux 机器上为 10ms）。连接不断循环回到慢启动阶段。在慢启动期间，超过窗口大小的消息数量突发会被延迟，等待与突发的第一个数据包相关的确认。

流量由一系列突发组成这一事实很可能解释了拥塞窗口大小的重置。

通过在空闲期后停用慢启动模式，我能够摆脱延迟。

[用户@主机 ~]$ cat /proc/sys/net/ipv4/tcp_slow_start_after_idle 0

Question 2

这不是某个地方的设置之类的微妙的事情。这将是 TCP 之上的协议的问题或代码错误。除了网络延迟非常高或噪音导致数据包丢失等特殊情况外，TCP 没有神奇的“加快速度”开关。

最明显的解释是，如果代码调用write或send时块非常小。每次发送至少需要累积 2KB，理想情况下为 16KB。你说你批量处理消息，但不清楚这意味着什么。你是在一次调用中将它们传递到write或吗send？你是否将它们捆绑到 TCP 顶层协议的单个协议数据单元中？同时执行这两件事对延迟有很大帮助。

另外，删除 TCP_NODELAY。它会降低吞吐量。它只适用于那些不是为使用 TCP 而设计的应用程序，或者那些无法预测哪一方需要下一步传输的应用程序。

当然，除非您实际上是在 TCP 之上分层协议，而您不知道哪一端接下来要传输数据（例如telnet）。那么设置 TCP_NODELAY 是有意义的。要使这种协议以低延迟工作，需要大量的专业知识。如果您的情况如此，请发布有关您在 TCP 之上分层的协议的更多详细信息，其协议数据单元大小如何，以及决定哪一端何时传输数据的因素。

如果您确实一次批量处理可用消息，并通过对write或的一次调用传递它们send，那么问题很可能是另一方没有为每个批次发送应用层确认。这些通过提供可供搭载的 TCP ACK 数据包来改善延迟。您的协议应该包括它们以确保双方交替，这有助于降低延迟。

Answer