S3 后端对于 rsync 操作有多合适？

2024-6-2 • tag-icon

我运行一个提供开源软件的大型服务器（https://ftp.halifax.rwth-aachen.de)，目前以多千兆位吞吐量提供超过 30 TB 的数据。使用 rsync 同步并保持数据最新，即将数据从某个主 rsync 服务器同步到我的本地副本。

目前，存储后端是基于磁盘的，带有文件系统 (ZFS)。有人提出将该项目移至虚拟化环境，其中大部分存储将通过 S3（托管在本地数据中心的 Ceph）提供。

根据我使用 rsync 的经验，我认为通过 S3 同步大量数据不是一个好主意，但我缺乏使用 S3 的实际经验。

有多糟糕？S3（协议）适合这种操作吗？除了处理大量读取请求（平均每秒 200 次）外，S3 服务器是否能够告诉 rsync 同步数据所需的一切信息？

附加问题：S3 是否适合通过 rsync 提供数据，即保持 rsync://ftp.halifax.rwth-aachen.de/ 运行？

当前系统（基于 ZFS/磁盘）的实时统计数据： https://ftp.halifax.rwth-aachen.de/~cotto/

相关内容