网关虚拟机神秘拒绝“需要分片”

Question 1

您不能丢弃 ICMP 碎片化要求消息。它们是 pMTU 发现所必需的，而 pMTU 发现是 TCP 正常工作所必需的。请 LART 防火墙管理员。

根据透明规则，充当防火墙的数据包过滤路由器允许设置了“不分段 (DF)”位的传出 IP 数据包，但不得阻止响应传出数据包而发送的传入 ICMP 目标不可达 / 需要分段错误到达防火墙内的主机，因为这会破坏生成合法流量的主机对路径 MTU 发现的标准兼容使用。—— 防火墙要求 - RFC2979（原文重点）

十多年来，人们一直认为这种配置存在根本性缺陷。ICMP 不是可选的。

Answer

您不能丢弃 ICMP 碎片化要求消息。它们是 pMTU 发现所必需的，而 pMTU 发现是 TCP 正常工作所必需的。请 LART 防火墙管理员。

根据透明规则，充当防火墙的数据包过滤路由器允许设置了“不分段 (DF)”位的传出 IP 数据包，但不得阻止响应传出数据包而发送的传入 ICMP 目标不可达 / 需要分段错误到达防火墙内的主机，因为这会破坏生成合法流量的主机对路径 MTU 发现的标准兼容使用。—— 防火墙要求 - RFC2979（原文重点）

十多年来，人们一直认为这种配置存在根本性缺陷。ICMP 不是可选的。

Question 2

我终于弄清楚了。原来这是 VMware 在目标服务器虚拟网卡中实施 TCP 分段卸载时出现的问题。

服务器的 TCP/IP 堆栈会将一个大块发送到 NIC，期望 NIC 会将其分解为受链路 MTU 限制的 TCP 段。但是，VMware 决定将其保留在一个大段中，直到 - 嗯，我不确定什么时候。

当它到达网关虚拟机的 TCP/IP 堆栈时，它似乎实际上停留在一个大段，从而引发拒绝。

生成的 ICMP 数据包中隐藏着一个重要线索：被拒绝的数据包的 IP 标头显示其大小为 2960 字节 - 比它似乎拒绝的实际数据包大得多。如果 TCP 段结合了以下数据，那么它也正是该数据段在线路上的大小：两个部分已发送至目前位置。

导致问题很难诊断的一个原因是，传输的数据实际上曾是拆分成 1500 字节的帧，就运行在另一个 VM 上的 WireShark（连接到单独的混杂端口组上的同一 vSwitch）而言。我真的不确定为什么网关 VM 看到一个数据包，而 WireShark VM 看到两个。FWIW，网关没有启用大型接收卸载 - 如果启用了，我可以理解。WireShark VM 运行的是 Windows 7。

我认为 VMware 延迟分段的逻辑是，如果数据要从物理 NIC 发出，则可以利用 NIC 的实际硬件卸载。然而，它确实存在错误，在发送到另一个 VM 之前无法分段，而且不一致。我曾在其他地方看到过这种行为被提及为 VMware 错误。

解决方案很简单，就是关闭目标服务器中的 TCP 分段卸载。具体过程因操作系统而异，但请注意：

在 Windows 中，在连接的属性、常规选项卡或网络选项卡上，单击适配器旁边的“配置...”，然后查看高级选项卡。对于 Server 2003 R2，它显示为“IPv4 TCP 分段卸载”。对于 Server 2008 R2，它显示为“大型发送卸载 (IPv4)”。

这个解决方案有点不完善，可能会影响某些环境中的性能，所以我仍然会接受任何更好的答案。

Answer

我终于弄清楚了。原来这是 VMware 在目标服务器虚拟网卡中实施 TCP 分段卸载时出现的问题。

服务器的 TCP/IP 堆栈会将一个大块发送到 NIC，期望 NIC 会将其分解为受链路 MTU 限制的 TCP 段。但是，VMware 决定将其保留在一个大段中，直到 - 嗯，我不确定什么时候。

当它到达网关虚拟机的 TCP/IP 堆栈时，它似乎实际上停留在一个大段，从而引发拒绝。

生成的 ICMP 数据包中隐藏着一个重要线索：被拒绝的数据包的 IP 标头显示其大小为 2960 字节 - 比它似乎拒绝的实际数据包大得多。如果 TCP 段结合了以下数据，那么它也正是该数据段在线路上的大小：两个部分已发送至目前位置。

导致问题很难诊断的一个原因是，传输的数据实际上曾是拆分成 1500 字节的帧，就运行在另一个 VM 上的 WireShark（连接到单独的混杂端口组上的同一 vSwitch）而言。我真的不确定为什么网关 VM 看到一个数据包，而 WireShark VM 看到两个。FWIW，网关没有启用大型接收卸载 - 如果启用了，我可以理解。WireShark VM 运行的是 Windows 7。

我认为 VMware 延迟分段的逻辑是，如果数据要从物理 NIC 发出，则可以利用 NIC 的实际硬件卸载。然而，它确实存在错误，在发送到另一个 VM 之前无法分段，而且不一致。我曾在其他地方看到过这种行为被提及为 VMware 错误。

解决方案很简单，就是关闭目标服务器中的 TCP 分段卸载。具体过程因操作系统而异，但请注意：

在 Windows 中，在连接的属性、常规选项卡或网络选项卡上，单击适配器旁边的“配置...”，然后查看高级选项卡。对于 Server 2003 R2，它显示为“IPv4 TCP 分段卸载”。对于 Server 2008 R2，它显示为“大型发送卸载 (IPv4)”。

这个解决方案有点不完善，可能会影响某些环境中的性能，所以我仍然会接受任何更好的答案。

Question 3

我有同样的症状，问题原来是这个内核错误：https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=754294

Answer

我有同样的症状，问题原来是这个内核错误：https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=754294

Question 4

我在 Linux 主机上看到了同样的问题。

解决方案是停用网关机器的网络驱动程序 (vmxnet) 上的大型接收卸载 (LRO)。

引用 VMware KB 中的话：

LRO 将传入的网络数据包重新组合到更大的缓冲区中，并将生成的更大但更少的数据包传输到主机或虚拟机的网络堆栈。与禁用 LRO 时相比，CPU 需要处理的数据包更少，从而降低了其网络利用率。

看http://kb.vmware.com/kb/2055140

因此，到达网关机器的数据包由网络驱动程序合并并发送到网络堆栈，网络堆栈将它们丢弃为大于 MTU 的数据包......

Answer