rsync 是否是故障转移实现的良好候选者（非常大的数据集）？

Question 1

rsync 是否可以智能/高效地检测要复制/删除哪些文件？

Rsync 在检测和更新文件方面非常高效。 取决于你的文件如何变化，您可能会发现，与大量小文件相比，少量大文件更容易同步。根据您选择的选项，每次运行时，它都会对两端的每个文件执行 stat()，然后如果文件不同，则传输更改。如果只有少量文件发生变化，那么查找已更改文件的这一步骤可能会非常昂贵。很多因素都会影响 rsync 所需的时间。如果您真的想尝试一下，您应该对真实数据进行大量测试，以了解其工作原理。

如果主服务器崩溃并且从服务器接管一个小时（例如），那么让主服务器再次保持最新状态是否像反向运行 rsync 一样简单（从从服务器到主服务器）？

应该。

是否有可能使用 rsync 实现多主系统？

Unison 使用 rsync 库，允许双向同步。它应该允许任一端进行更新。使用正确的选项，它可以识别冲突并保存两端发生更改的任何文件的备份。

在不了解具体细节的情况下，我无法自信地告诉你这是可行的方法。你可能需要看看 DRBD，或者一些其他集群设备/文件系统方法，它们将在较低级别同步事物。

Answer

rsync 是否可以智能/高效地检测要复制/删除哪些文件？

Rsync 在检测和更新文件方面非常高效。 取决于你的文件如何变化，您可能会发现，与大量小文件相比，少量大文件更容易同步。根据您选择的选项，每次运行时，它都会对两端的每个文件执行 stat()，然后如果文件不同，则传输更改。如果只有少量文件发生变化，那么查找已更改文件的这一步骤可能会非常昂贵。很多因素都会影响 rsync 所需的时间。如果您真的想尝试一下，您应该对真实数据进行大量测试，以了解其工作原理。

如果主服务器崩溃并且从服务器接管一个小时（例如），那么让主服务器再次保持最新状态是否像反向运行 rsync 一样简单（从从服务器到主服务器）？

应该。

是否有可能使用 rsync 实现多主系统？

Unison 使用 rsync 库，允许双向同步。它应该允许任一端进行更新。使用正确的选项，它可以识别冲突并保存两端发生更改的任何文件的备份。

在不了解具体细节的情况下，我无法自信地告诉你这是可行的方法。你可能需要看看 DRBD，或者一些其他集群设备/文件系统方法，它们将在较低级别同步事物。

Question 2

我应该分割我的大文件吗？
rsync 很智能，但同步非常大的文件时效率会大大降低。原因如下：

如果文件只有一部分发生变化，那么 rsync 会非常智能地只发送这一部分。但要确定要发送哪一部分，它必须将文件划分为 X 字节的逻辑块，为每个块（两侧）建立校验和，比较这些块，发送差异，然后在接收端重建文件。

另一方面，如果您有一堆不变的小文件，那么日期和大小将匹配，rsync 将跳过校验和步骤，并假设文件没有改变。如果我们谈论的是许多 GB 的数据，那么您将跳过大量 IO，并节省大量时间。因此，即使比较更多文件会产生额外开销，但它仍然比实际所需的时间要少读文件并比较校验和。

因此，虽然您希望文件数量尽可能少，但您也希望文件数量足够多，这样您就不会在处理未改变的数据时浪费大量 IO。我建议按照应用程序使用的逻辑边界拆分数据。

让 master 再次保持最新状态就像反向运行 rsync 一样简单
从文件系统的角度来看，是的。但是您的应用程序可能有其他要求，这会使事情变得复杂。当然，您将恢复到您 rsync 到从属服务器的最新检查点。

是否有可能使用 rsync 实现多主系统？
从技术上讲是的，但这样做很疯狂。假设一切顺利，那么一切都会好起来。但是当出现问题时，您可能会开始遇到更改问题（并特别删除) 同步方向错误，用坏文件覆盖好文件，或者删除插入的文件，或者删除的文件的影子再次出现。大多数人建议不要这样做，但如果你愿意，你可以尝试一下。

建议、提示、经验
如果您正在寻找具有即时同步功能的 master/master 设置，我推荐 DRBD。它的设置和维护要复杂得多，但功能更强大。它对磁盘本身进行块级同步，而不是对磁盘上的文件进行同步。要“在线”执行此操作，您需要一个可以容忍此类同步的文件系统，例如 GFS。

Rsync 更像是一个快照系统，而不是持续同步系统。

Answer