我运行一个提供开源软件的大型服务器(https://ftp.halifax.rwth-aachen.de),目前以多千兆位吞吐量提供超过 30 TB 的数据。使用 rsync 同步并保持数据最新,即将数据从某个主 rsync 服务器同步到我的本地副本。
目前,存储后端是基于磁盘的,带有文件系统 (ZFS)。有人提出将该项目移至虚拟化环境,其中大部分存储将通过 S3(托管在本地数据中心的 Ceph)提供。
根据我使用 rsync 的经验,我认为通过 S3 同步大量数据不是一个好主意,但我缺乏使用 S3 的实际经验。
有多糟糕?S3(协议)适合这种操作吗?除了处理大量读取请求(平均每秒 200 次)外,S3 服务器是否能够告诉 rsync 同步数据所需的一切信息?
附加问题:S3 是否适合通过 rsync 提供数据,即保持 rsync://ftp.halifax.rwth-aachen.de/ 运行?
当前系统(基于 ZFS/磁盘)的实时统计数据: https://ftp.halifax.rwth-aachen.de/~cotto/