如何使远程服务器中约 2M 文件的 rsync 能够进行定期备份

Question 1

经过 40 小时的初始同步时间下载和同步所有数据后，后续扫描和同步相同数据（仅用于提取更新）仅花费 6.5 小时。运行的命令是rsync：

rsync -a --quiet USER@REMOTE_SERVER:ROOT/FOLDER/PATH/ /LOCAL/DESTINATION

我认为我最初下载花费的时间很长有两个原因：

初始数据集为 270GB 和 ~2M 个文件，这对于通过互联网进行扫描和下载来说是一个很大的量（在我们的例子中，我们有一个 100mbit 同步连接，并且连接到一个大型 CDN 提供商）
我在初始同步时启用了 -P 选项和 -v 选项，这导致大量本地控制台聊天显示正在同步的每个文件和进度信息。

因此，这里的答案是：只需使用rsync不是那么多的详细程度选项（--quiet理想情况下）并且它非常有效 - 即使对于庞大的数据集也是如此。

Answer

经过 40 小时的初始同步时间下载和同步所有数据后，后续扫描和同步相同数据（仅用于提取更新）仅花费 6.5 小时。运行的命令是rsync：

rsync -a --quiet USER@REMOTE_SERVER:ROOT/FOLDER/PATH/ /LOCAL/DESTINATION

我认为我最初下载花费的时间很长有两个原因：

初始数据集为 270GB 和 ~2M 个文件，这对于通过互联网进行扫描和下载来说是一个很大的量（在我们的例子中，我们有一个 100mbit 同步连接，并且连接到一个大型 CDN 提供商）
我在初始同步时启用了 -P 选项和 -v 选项，这导致大量本地控制台聊天显示正在同步的每个文件和进度信息。

因此，这里的答案是：只需使用rsync不是那么多的详细程度选项（--quiet理想情况下）并且它非常有效 - 即使对于庞大的数据集也是如此。

Question 2

这是我个人会做的事情——解决方案有两种。

变体 1-简单的强力选项：

2M * 200KB 大约是 400GB，因此每次都进行完整快照可能不太现实。如果可以的话，简单的解决方案是执行：

ssh <remote host> 'tar -c /directory/to/backup | <gzip/xz/lz4>' > backup.tar.<gz/xz/lz4>

它的工作原理是将所有这些文件转换成通过管道推送的单个流，而不是 Rsync/SFTP 枚举数百万个文件。

从那里开始，我将使用 borg 对 tar 球进行重复数据删除，以便您可以高效地存储多个版本。这是快速传输大量小文件的常用技巧。缺点是您无法执行 RSync 执行的重复数据删除。

如果每个间隔 400GB 太大，我会考虑以下几点：

变体 2——聪明的选择。

您可以执行以下操作，但您需要为每个顶级目录创建一个 tarball，并将哈希值与备份服务器上的现有文件进行比较。如果不同，则传输它，否则，不执行任何操作。

Answer