我一直在对 GKE pod 上的高延迟问题进行故障排除,traceroute
在访问该集群的数据库服务器(它是 GCE VPS,但不是集群的一部分)时产生如下结果:
$ traceroute -n -q5 -w30 10.164.0.2
traceroute to 10.164.0.2 (10.164.0.2), 30 hops max, 60 byte packets
1 10.44.49.1 0.050 ms 0.011 ms 0.007 ms 0.008 ms 0.006 ms
2 * 10.164.0.2 1.700 ms * 1.780 ms *
但是,当我traceroute
从节点本身(使用toolbox
,因为节点正在运行 COS)时,我得到了这个(这是有道理的):
$ traceroute -q5 -w30 10.164.0.2
traceroute to 10.164.0.2 (10.164.0.2), 64 hops max
1 10.164.0.2 1.301ms 0.085ms 0.095ms 0.076ms 0.118ms
什么原因可能导致延误?
注意:我在分布在不同节点的多个 pod 上观察到了这种行为,这些 pod 既运行着旧版本的 Debian,也运行着最新的 Alpine。