解决 ESXi NFS 数据存储上的延迟峰值问题

Question 1

该问题似乎已在 ESXi 5 中修复。我已成功测试了版本 469512。

Answer

该问题似乎已在 ESXi 5 中修复。我已成功测试了版本 469512。

Question 2

谢谢，nfsstat 看起来不错。我查看了捕获的内容。没有发现任何结论性的东西，但确实发现了一些有趣的东西。我过滤了 tcp.time_delta > 5。我在每一个延迟实例是 RPC 调用的确切开始。并非所有新的 RPC 调用都很慢，但所有减速都发生在 RPC 调用的确切开始处。此外，从捕获结果来看，192.168.250.10 包含所有延迟。192.168.250.2 立即响应所有请求。

发现：

延迟总是发生在 RPC 调用的第一个数据包中
NFS 命令类型与延迟实例无关
碎片化 = 仅延迟第一个数据包

一个大型的写入调用可以分解成 300 个单独的 TCP 数据包，只有第一个被延迟，其余的都飞过去了。中间从来不会发生延迟。我不确定窗口大小会如何影响开始如此剧烈地改变这种关系。

下一步：我将开始向下调整 NFS 选项（如 NFSSVC_MAXBLKSIZE），而不是 TCP 窗口。此外，我注意到 2.6.18 可以工作，而 2.6.38 则不行。我知道在那段时间里添加了对 VMXnet3 驱动程序的支持。您在主机上使用什么 NIC 驱动程序？TCP 卸载是/否？在 95 秒左右，单个 NFS 写入调用有超过 500 个 TCP 数据包。负责 TCP 并分解大型 PDU 的任何东西都可能是阻塞的原因。

Answer

谢谢，nfsstat 看起来不错。我查看了捕获的内容。没有发现任何结论性的东西，但确实发现了一些有趣的东西。我过滤了 tcp.time_delta > 5。我在每一个延迟实例是 RPC 调用的确切开始。并非所有新的 RPC 调用都很慢，但所有减速都发生在 RPC 调用的确切开始处。此外，从捕获结果来看，192.168.250.10 包含所有延迟。192.168.250.2 立即响应所有请求。

发现：

延迟总是发生在 RPC 调用的第一个数据包中
NFS 命令类型与延迟实例无关
碎片化 = 仅延迟第一个数据包

一个大型的写入调用可以分解成 300 个单独的 TCP 数据包，只有第一个被延迟，其余的都飞过去了。中间从来不会发生延迟。我不确定窗口大小会如何影响开始如此剧烈地改变这种关系。

下一步：我将开始向下调整 NFS 选项（如 NFSSVC_MAXBLKSIZE），而不是 TCP 窗口。此外，我注意到 2.6.18 可以工作，而 2.6.38 则不行。我知道在那段时间里添加了对 VMXnet3 驱动程序的支持。您在主机上使用什么 NIC 驱动程序？TCP 卸载是/否？在 95 秒左右，单个 NFS 写入调用有超过 500 个 TCP 数据包。负责 TCP 并分解大型 PDU 的任何东西都可能是阻塞的原因。

Question 3

我在使用 ESXi4.1U1 和 CentOS VM 时遇到了同样的问题。主机是 Dell R610s，存储是 EMC2 Isilon 集群。

您是否使用了 VLANS？我发现在 VMkernel 端口上使用 VLAN 进行存储会导致 VMHost 上的所有存储流量“挂起”4000-5000 毫秒。但是，如果我将 VMkernel 端口移出 VLAN，使其接收未标记的数据包，则不会出现此问题。

下面的简单设置将会导致我的网络出现问题：

1)在服务器或工作站上安装 ESXi 4.1U1（我尝试时都出现了这个问题）

2)在 VLAN 上添加 VMkernel 端口。

3)添加 NFS 数据存储（我的位于同一个 VLAN 上，即 Isilon 接收标记数据包）

4)安装2个CentOS 5.5 VM，其中一个带有ioping。

5）将虚拟机启动到单用户模式（即无网络、最少服务）

6）在一台机器上运行ioping，以便将其写入虚拟磁盘

7）在另一台机器上运行 dd 或类似命令，将 100MB 数据写入 /tmp 或类似目录

我经常会看到两个虚拟机都冻结 4-5 秒。

真的很感兴趣看看是否有其他人也见过类似的东西。

Answer