我使用 rsync 将数百 TB 的数据从一个文件服务器传输/更新到另一个文件服务器,数百万个文件。其中许多文件非常相似(但不完全相同)。
我想知道是否有办法从这些相似性中获益,即不传输已为其他文件传输的相同数据块。有点像重复数据删除,但不是在文件系统级别,而是在数据传输过程中。
据我所知,rsync 会分别查看每个文件以仅传输更改的数据块,但从不考虑来自其他文件。
通过缓存和重用传输的块,rsync 可以节省大量的网络带宽。
那么有什么方法可以实现这个吗?
答案1
我回答我自己:看起来--fuzzy
只是类似的东西:
此选项告诉 rsync 它应该为任何缺失的目标文件查找基础文件。当前算法在与目标文件相同的目录中查找具有相同大小和修改时间的文件或名称相似的文件。如果找到,rsync 将使用模糊基础文件来尝试加快传输速度。