在两台 Linux 服务器之间同步数百万个文件

Question 1

我倾向于建议与数据无关的复制，例如 drbd。大量文件将导致在比“块存储”更高级别上运行的任何内容花费过多的时间遍历树 - 正如您使用 rsync 或创建 inotify 监视所发现的那样。

我个人故事的简短版本支持了这一点：我没有使用过 Ceph，但我很确定这不是他们的主要市场目标，因为它与 Gluster 相似。然而，过去几年我一直在尝试使用 Gluster 来实现这种解决方案。虽然有几个主要版本更新，但它大部分时间都在运行，但我遇到了无穷无尽的问题。如果您的目标是更多的冗余而不是性能，Gluster 可能不是一个好的解决方案。特别是如果您的使用模式有大量 stat() 调用，Gluster 在复制方面表现不佳。这是因为对复制卷的 stat 调用会发送到所有复制节点（实际上是“块”，但每个主机可能只会有一个块）。例如，如果您有双向副本，则来自客户端的每个 stat() 都会等待两个块的响应，以确保它使用当前数据。然后，如果您使用本机 gluster 文件系统来实现冗余（而不是使用 Gluster 作为后端，以 NFS 作为协议和自动挂载器来实现冗余，但由于 stat() 原因，这仍然很糟糕），那么您还会有 FUSE 开销和缺乏缓存的情况。不过，Gluster 非常适合处理大型文件，您可以将数据分布到多个服务器上；数据条带化和分布效果很好，因为这就是它的真正用途。较新的 RAID10 类型复制的性能优于较旧的直接复制卷。但是，根据我对您的使用模型的猜测，我建议不要这样做。

请记住，您可能必须找到一种方法在机器之间进行主选举，或者实现分布式锁定。共享块设备解决方案需要一个支持多主设备的文件系统（如 GFS），或者需要只有一个节点以读写方式挂载该文件系统。文件系统通常不喜欢在其下面的块设备级别更改数据。这意味着您的客户端需要能够辨别哪个是主服务器，并在那里直接发出写入请求。这可能会成为一个很大的麻烦。如果可以选择 GFS 及其所有支持基础设施，则多主模式下的 drbd（他们称之为“双主”）可以很好地工作。 https://www.drbd.org/en/doc/users-guide-83/s-dual-primary-mode了解更多相关信息。

无论您选择哪个方向，您都可能会发现，如果不给 SAN 公司大量资金，实时实现这仍然是一个相当大的痛苦。

Answer

我倾向于建议与数据无关的复制，例如 drbd。大量文件将导致在比“块存储”更高级别上运行的任何内容花费过多的时间遍历树 - 正如您使用 rsync 或创建 inotify 监视所发现的那样。

我个人故事的简短版本支持了这一点：我没有使用过 Ceph，但我很确定这不是他们的主要市场目标，因为它与 Gluster 相似。然而，过去几年我一直在尝试使用 Gluster 来实现这种解决方案。虽然有几个主要版本更新，但它大部分时间都在运行，但我遇到了无穷无尽的问题。如果您的目标是更多的冗余而不是性能，Gluster 可能不是一个好的解决方案。特别是如果您的使用模式有大量 stat() 调用，Gluster 在复制方面表现不佳。这是因为对复制卷的 stat 调用会发送到所有复制节点（实际上是“块”，但每个主机可能只会有一个块）。例如，如果您有双向副本，则来自客户端的每个 stat() 都会等待两个块的响应，以确保它使用当前数据。然后，如果您使用本机 gluster 文件系统来实现冗余（而不是使用 Gluster 作为后端，以 NFS 作为协议和自动挂载器来实现冗余，但由于 stat() 原因，这仍然很糟糕），那么您还会有 FUSE 开销和缺乏缓存的情况。不过，Gluster 非常适合处理大型文件，您可以将数据分布到多个服务器上；数据条带化和分布效果很好，因为这就是它的真正用途。较新的 RAID10 类型复制的性能优于较旧的直接复制卷。但是，根据我对您的使用模型的猜测，我建议不要这样做。

请记住，您可能必须找到一种方法在机器之间进行主选举，或者实现分布式锁定。共享块设备解决方案需要一个支持多主设备的文件系统（如 GFS），或者需要只有一个节点以读写方式挂载该文件系统。文件系统通常不喜欢在其下面的块设备级别更改数据。这意味着您的客户端需要能够辨别哪个是主服务器，并在那里直接发出写入请求。这可能会成为一个很大的麻烦。如果可以选择 GFS 及其所有支持基础设施，则多主模式下的 drbd（他们称之为“双主”）可以很好地工作。 https://www.drbd.org/en/doc/users-guide-83/s-dual-primary-mode了解更多相关信息。

无论您选择哪个方向，您都可能会发现，如果不给 SAN 公司大量资金，实时实现这仍然是一个相当大的痛苦。

Question 2

在 Proxmox VE 设置的帮助下，我已从 rsync 转向 ceph。

现在，我通过实时复制在一个集群中管理 14TB。近4年了。

Answer

在 Proxmox VE 设置的帮助下，我已从 rsync 转向 ceph。

现在，我通过实时复制在一个集群中管理 14TB。近4年了。

在两台 Linux 服务器之间同步数百万个文件

答案1

答案2

相关内容