备份吞吐量突然从每小时 1TB 降至每小时 350GB

Question 1

首先，确定是否有任何变化。您的帖子中的描述表明有多个团队参与管理此基础架构，他们之间可能没有很好地共享信息。找出吞吐量下降的确切时间并四处询问（如果您还没有这样做的话）。

接下来，让我们从 OSI 层的底部开始，然后逐步向上。首先弄清楚事物是如何连接在一起的，这样您就知道要检查什么。此连接是通过某个物理交换机还是某个服务器上的虚拟交换机进行的？如果一个端口的利用率不高，那么整体利用率如何？是否同时运行其他备份/同步？

之后，查找路径上的数据包丢失以及传输此数据的协议的其他问题。我假设连接是 TCP，因此请注意影响吞吐量的三大项，如 TCP 窗口大小、往返时间和可用带宽。数据包丢失等因素会导致 TCP 缩减并在每个窗口发送更少的数据。更高的延迟意味着潜在的下载速度更慢（等待 ACK 的每一毫秒都意味着不发送更多数据的时间）TCPDUMP 是您的好朋友，捕获一部分流量并进行检查。

接下来检查此连接中的两个端点，并重新检查它们是否因 RAM 或 CPU 负载而造成瓶颈。

最后，一些健全性检查项目。

1) 当您的备份未运行时，其他协议是否可以在相同端点之间以更快的速度下载？SMB？FTP？

2）在这种环境下是否存在备份性能不佳的历史？

3) 如果您需要支持，请向供应商开具一张票据。

假设中间没有其他变化，那么网络很可能参与其中。

Answer

首先，确定是否有任何变化。您的帖子中的描述表明有多个团队参与管理此基础架构，他们之间可能没有很好地共享信息。找出吞吐量下降的确切时间并四处询问（如果您还没有这样做的话）。