我正在编写脚本来搜索重复文件并按大小分组,然后按其 MD5 校验和分组。
这是我的脚本:
find . -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 > ./dups.txt
我想确保我的脚本能够根据其大小和 MD5 正确生成重复文件。
有没有什么方法可以确保我的结果是正确的,或者你能帮我检查一下我的脚本并让我知道吗?
答案1
这是一个类似的重复查找工具,用 Perl 编写,遵循 GPL:
https://github.com/omps/myperlscripts/blob/master/dup-files.pl
您可能还希望探索 find(1) 的 -exec 选项。