同一子网中突然出现高延迟峰值

2024-6-11 • tag-icon

我在 VMWare ESXI 下有 2 个虚拟机，它们是从同一个模板（Ubuntu 22.04 LTS OS）构建的。但是，其中一个是使用 vSphere UI（172.16.1.207 ser-notf-01）从模板手动复制的，另一个是由 Terraform 使用 vSphere api（172.16.1.209 terraformtest）创建的，它从同一个模板创建虚拟机。它们位于同一个 VLAN、同一个子网中，并且流量仅通过主机操作系统网络接口，因此这里不涉及物理路由器/交换机。我注意到，当我从第三个示例服务器（172.16.1.222 ser-staging-01）ping 它们时，该服务器稳定且已运行了一段时间，我在 ping“terraformtest”时会出现峰值，但在 ping“ser-notf-01”时不会出现峰值。

root@ser-staging-01:-# ping 172.16.1.207 
PING 172.16.1.207 (172.16.1.207) 56(84) bytes of data.
64 bytes from 172.16.1.207: icmp_seq=1 ttl=64 time=0.334 ms
64 bytes from 172.16.1.207: icmp_seq=2 ttl=64 time=0.315 ms
64 bytes from 172.16.1.207: icmp_seq=3 ttl=64 time=0.325 ms
64 bytes from 172.16.1.207: icmp_seq=4 ttl=64 time=0.265 ms
64 bytes from 172.16.1.207: icmp_seq=5 ttl=64 time=0.407 ms
64 bytes from 172.16.1.207: icmp_seq=6 ttl=64 time=0.338 ms
64 bytes from 172.16.1.207: icmp_seq=7 ttl=64 time=0.292 ms
64 bytes from 172.16.1.207: icmp_seq=8 ttl=64 time=0.275 ms
64 bytes from 172.16.1.207: icmp_seq=9 ttl=64 time=0.392 ms
64 bytes from 172.16.1.207: icmp seq=10 ttl=64 time=0.329 ms
64 bytes from 172.16.1.207: icmp_seq=11 ttl=64 time=0.295 ms
64 bytes from 172.16.1.207: icmp seq=12 ttl=64 time=0.259 ms
64 bytes from 172.16.1.207: icmp_seq=13 ttl=64 time=0.310 ms
C
--- 172.16.1.207 ping statistics ---
13 packets transmitted, 13 received, 0% packet loss, time 12265ms ms
rtt min/avg/max/mdev = 0.259/0.318/0.407/0.042
root@ser-staging-01:~# ping 172.16.1.209
PING 172.16.1.209 (172.16.1.209) 56(84) bytes of data.
64 bytes from 172.16.1.209: icmp_seq=1 ttl=64 time=1.12 ms
64 bytes from 172.16.1.209: icmp_seq=2 ttl=64 time=0.833 ms
64 bytes from 172.16.1.209: icmp_seq=3 ttl=64 time=0.373 ms
64 bytes from 172.16.1.209: icmp_seq=4 ttl=64 time=7.21 ms
64 bytes from 172.16.1.209: icmp_seq=5 ttl=64 time=55.8 ms
64 bytes from 172.16.1.209: icmp_seq=6 ttl=64 time=0.484 ms
64 bytes from 172.16.1.209: icmp_seq=7 ttl=64 time=0.438 ms
64 bytes from 172.16.1.209: icmp_seq=8 ttl=64 time=0.805 ms
64 bytes from 172.16.1.209: icmp seq=9 ttl=64 time=0.388 ms
64 bytes from 172.16.1.209: icmp_seq=10 ttl=64 time=26.2 ms
64 bytes from 172.16.1.209: icmp_seq=11 ttl=64 time=0.473 ms
64 bytes from 172.16.1.209: icmp seq=12 ttl=64 time=5.29 ms
64 bytes from 172.16.1.209: icmp seq=13 ttl=64 time=0.517 ms
64 bytes from 172.16.1.209: icmp_seq=14 ttl=64 time=0.470 ms

总结一下，相同的子网、相同的 VMX 文件和虚拟机管理程序配置、相同的物理服务器，不涉及路由，并且都由相同的模板制作，我已经使用不同的模板尝试了 5-6 次，唯一的模式似乎是“Terraform”的参与，这对我来说也没有意义。我尝试过的事情：

重复 IP
重复的 MAC
操作系统 arp 缓存，以确保为相应的 IP 设置了正确的 MAC
Sysctl 配置
使用不同的工具和协议来确保这不仅仅是一个 ICMP 问题
更改上述服务器上的 IP 地址和 MAC 地址
再次检查两台虚拟机的虚拟机参数是否相同

我希望在这里找到解决这个问题的方法，或者了解概念或搜索工具，以便能够解决问题。这个问题部分与操作系统有关，我知道有些人可能会有不同的看法，在这种情况下，我很高兴知道提出这个问题的正确地方。

相关内容