如何备份分布式文件系统?

如何备份分布式文件系统?

注意:这是一个“理论”问题,因为我还没有得到那种数据。

如果您有一个分布式文件系统,跨越十几台或更多台服务器,并且有数 TB 的数据,您如何备份它?本地磁带驱动器不是一个选择,因为我租用了服务器,无法物理访问它们。在我看来,我必须有一个备份集群,它大小成比例到源集群。通过网络并行发送所有这些数据可能会使网络饱和,从而降低吞吐量。但是所有备份都必须同时进行,因此进行循环备份似乎没有意义。解决这个问题的一种方法是只保留大驱动器(在我的情况下)的一小部分,其余部分用于旋转本地 LVM 快照。不幸的是,如果服务器受到威胁,这种备份将毫无用处。还有其他选项可以创建不会中断网络的时间点备份吗?

[编辑] 解决方案:

1)将整个数据集(接近)实时复制到一个大型本地备份服务器,因此带宽使用和 IO 会分散到一天中,并且本地带宽通常是“免费的”。

2) 从该机器上创建真正的备份并将其发送到异地。如果您拥有所有数据,则应该很容易进行差异备份,从而节省可计费带宽。

答案1

如果您发现您有更多可以在备份窗口中复制的数据 - 那么您需要考虑实时复制整个数据集,或者尽可能接近地复制,使用单独的基础设施。(不同的子网、VLAN、不同的外部工作管道等)

我会使用 iSCSI,事实上具体来说,我会使用 openfiler 将我的后端数据复制到外部世界,再加上您可以通过 openfiler 获得的其他好东西。

如果失败了,我将在本地使用 DRDB(假设是 Linux)并将其复制到其他几个服务器,然后在它们上运行我的备份。


我能给人们提供的最佳建议是,将他们的关键数据分开,并确保将其复制到冗余磁盘空间,如 SAN,或者至少是 NAS。这样,您几乎可以部署任何您想要的本地备份机制,因为您的关键数据无论如何都会在异地复制,所以您知道您的安全。这很麻烦,管理层一开始可能不同意,但请他们计算一下一周的停机时间会造成多少损失,您会发现您的预算会奇迹般地增加!

答案2

所以服务器位于同一位置,嗯......

  1. 我会将一台服务器添加到同地的服务器场中,并让其接收所有 DFS 数据的副本。由于它是本地的,因此带宽不是问题。然后,该服务器可以处理异地压缩和复制数据。
  2. 然后,我会使用该服务器及其自己的带宽复制到辅助站点。有“云备份”解决方案只会复制位级更改。通过压缩发送的数据可以节省带宽。除了压缩之外,数据通常还会加密。

这种解决方案正成为一种越来越普遍的做法,提供备份软件和存储的供应商也越来越多。以 TB 为单位进行备份的初始购买通常意味着更多的议价能力。

这个想法适用于 Linux 或 Windows。具体软件将更多地取决于您的预算和您使用的操作系统。

需要考虑的其他事项。您的总数据量可能为 10TB。使用传统备份,您每天的数据变化量可能为 200GB。但位级变化量可能只有 30GB。如果这些数据经过压缩,那么您可能能够降到 20GB。您需要先了解您的数据,然后才能进行适当的规划。

相关内容