如何找到吞吐量下降和数据包丢失增加的根本原因?

如何找到吞吐量下降和数据包丢失增加的根本原因?

我的问题的简短摘要:为什么一台稳定的服务器会突然在几天内性能变差,然后后来(似乎自动)恢复正常?


我正在对 VPN 服务器解决方案进行一些性能测试。设置基本如下:

客户端(Linux)连接到 VPN 服务器,后者又将流量路由到“内部”网络(也是 Linux)上的节点/从“内部”网络(也是 Linux)上的节点路由流量。

测试简介: 在内部节点(Linux)上我执行命令

iperf -s -p 111 -u

然后,在客户端上执行

iperf -t20 -c<internal ip> -p 111 -l1000 -b100M -u

这些测试通常产生约 40Mbit/s 的吞吐量,且数据包丢失率约为 0%,并且持续且规律。也就是说,使用相同的硬件设置(对客户端/服务器的软件进行了微小更改),这些测试已经连续通过了 100 多天。然而,在过去一周,吞吐量每天下降约 10%,数据包丢失率每天增加约 10%。

在执行以下操作后,我运行了 iperf 测试的不同变体(不同的参数等):

  • 重启客户端、服务器和内部节点
  • 使用之前的稳定版本替换客户端和服务器软件
  • 更换客户端/服务器和服务器/内部节点之间的电缆和交换机
  • 尝试使用不同的客户端和不同的服务器(硬件)

这一切都没有任何影响。

然而,突然间,它就开始正常工作了。一次运行速度为 20Mbit/s,数​​据包丢失率为 60%,此后的所有运行都“恢复正常”。请注意,这是在更换硬件/软件并运行上述测试约 100 次后的几个小时内。

此后,我将硬件和软件恢复到原始设置,重复测试约 100 次,数字看起来(一致)良好。也就是说,我的“问题”已“解决”。

但我非常困惑到底是什么导致了这个问题。我为解决这个问题采取的所有措施都没有效果(因为在改变一切之后花了几个小时才稳定下来,而且当前的设置与一切开始失败时的情况相同)。

在网络管理/工程方面,我还是新手,因此我对以下方面一无所知: - 是什么原因导致问题出现的? - 问题是如何解决的? - 我应该如何解决这个问题?

我在这里问这些问题是因为我很沮丧;我没有学到任何新东西,也不知道下次出现这个问题时该怎么办。也许我的问题太宽泛了,但任何描述类似问题和解决方案的有用提示或资源都是有帮助的!

相关内容