假设我托管用户放置文件的服务器,并且在一天结束时所有这些文件都被检索到存储服务器中。
问题是很多文件都会重复,我想避免复制 10 次相同的文件。
我正在考虑获取每个传输文件的哈希值以确保每个文件都是唯一的,但也许有更好的解决方案。
答案1
一个选择是将其分成两个任务。
首先,在源计算机上找到重复文件,并创建符号链接、快捷方式或类似的东西,以便显示重复文件但不占用磁盘空间。我发现一个非常有效的查找重复文件的方法是经过良好调校的 Python 脚本就 SO 而言。可能需要根据您的用例进行修改。
当然,第二步是以保留符号链接或快捷链接的方式将文件复制到另一台机器。