如何找到吞吐量下降和数据包丢失增加的根本原因？

2024-6-1 • tag-icon

我的问题的简短摘要：为什么一台稳定的服务器会突然在几天内性能变差，然后后来（似乎自动）恢复正常？

我正在对 VPN 服务器解决方案进行一些性能测试。设置基本如下：

客户端（Linux）连接到 VPN 服务器，后者又将流量路由到“内部”网络（也是 Linux）上的节点/从“内部”网络（也是 Linux）上的节点路由流量。

测试简介： 在内部节点（Linux）上我执行命令

iperf -s -p 111 -u

然后，在客户端上执行

iperf -t20 -c<internal ip> -p 111 -l1000 -b100M -u

这些测试通常产生约 40Mbit/s 的吞吐量，且数据包丢失率约为 0%，并且持续且规律。也就是说，使用相同的硬件设置（对客户端/服务器的软件进行了微小更改），这些测试已经连续通过了 100 多天。然而，在过去一周，吞吐量每天下降约 10%，数据包丢失率每天增加约 10%。

在执行以下操作后，我运行了 iperf 测试的不同变体（不同的参数等）：

这一切都没有任何影响。

然而，突然间，它就开始正常工作了。一次运行速度为 20Mbit/s，数据包丢失率为 60%，此后的所有运行都“恢复正常”。请注意，这是在更换硬件/软件并运行上述测试约 100 次后的几个小时内。

此后，我将硬件和软件恢复到原始设置，重复测试约 100 次，数字看起来（一致）良好。也就是说，我的“问题”已“解决”。

但我非常困惑到底是什么导致了这个问题。我为解决这个问题采取的所有措施都没有效果（因为在改变一切之后花了几个小时才稳定下来，而且当前的设置与一切开始失败时的情况相同）。

在网络管理/工程方面，我还是新手，因此我对以下方面一无所知： - 是什么原因导致问题出现的？ - 问题是如何解决的？ - 我应该如何解决这个问题？

我在这里问这些问题是因为我很沮丧；我没有学到任何新东西，也不知道下次出现这个问题时该怎么办。也许我的问题太宽泛了，但任何描述类似问题和解决方案的有用提示或资源都是有帮助的！

相关内容