每日备份数百万个文件的 TB 级数据的最佳策略

Question

像 aws sync 或 rsync 这样的同步程序很容易使用，但元数据很重。大量的文件会导致大量的元数据 I/O。

tar 命令可以根据您关心的内容自定义同步。仅检查 mtime 元数据或遍历名称中包含日期的树将更有效率。但是，是的，自定义意味着您必须确保它是正确的。

块级备份不关心文件，而是备份整个卷。但是，增量备份和恢复单个文件比较棘手。基于快照可能会有所帮助（Linux LVM、ZFS）。但您需要在存储设备上执行此操作，而不是 NFS 共享。

无论实施如何，最重要的部分始终是恢复。

测试恢复。定义一组文件，为恢复时间目标设置一个计时器，然后执行。抽查文件列表是否完整，并且完整性良好。特别检查边缘情况，例如当天的第一个和最后一个文件。

Answer 1

像 aws sync 或 rsync 这样的同步程序很容易使用，但元数据很重。大量的文件会导致大量的元数据 I/O。

tar 命令可以根据您关心的内容自定义同步。仅检查 mtime 元数据或遍历名称中包含日期的树将更有效率。但是，是的，自定义意味着您必须确保它是正确的。

块级备份不关心文件，而是备份整个卷。但是，增量备份和恢复单个文件比较棘手。基于快照可能会有所帮助（Linux LVM、ZFS）。但您需要在存储设备上执行此操作，而不是 NFS 共享。

无论实施如何，最重要的部分始终是恢复。

测试恢复。定义一组文件，为恢复时间目标设置一个计时器，然后执行。抽查文件列表是否完整，并且完整性良好。特别检查边缘情况，例如当天的第一个和最后一个文件。

相关内容