查找并删除目录中的重复项

Question 1

您的脚本中有很多问题。

首先，为了分配结果将命令传递给变量时，您需要将其括在反引号 ( `command`) 中，或者最好是$(command).您将其放在单引号 ( 'command') 中，它不是将命令的结果分配给变量，而是将命令本身分配为字符串。因此，你的test实际上是：
```
$ echo "test $sum1=$sum2"
test find $i -type f -iname "*.jpg" -exec md5sum {} \;=find $j -type f -iname "*.jpg" -exec md5sum {} \;
```

下一个问题是该命令md5sum返回的不仅仅是哈希值：

$ md5sum /etc/fstab
46f065563c9e88143fa6fb4d3e42a252  /etc/fstab

您只想比较第一个字段，因此您应该md5sum通过仅打印第一个字段的命令传递输出来解析输出：

find $i -type f -iname "*.png" -exec md5sum '{}' \; | cut -f 1 -d ' '

或者

find $i -type f -iname "*.png" -exec md5sum '{}' \; | awk '{print $1}'

此外，该find命令将返回许多匹配项，而不仅仅是一个，并且每个匹配项都将被第二个匹配项重复find。这意味着在某些时候您将同一个文件与其自身进行比较，md5sum 将是相同的，您最终将删除全部a.jpg你的文件（我在包含和的测试目录上运行了这个b.jpg）：
```
for i in $(find . -iname "*.jpg"); do
  for j in $(find . -iname "*.jpg"); do
     echo "i is: $i and j is: $j"
  done
done   
i is: ./a.jpg and j is: ./a.jpg   ## BAD, will delete a.jpg
i is: ./a.jpg and j is: ./b.jpg
i is: ./b.jpg and j is: ./a.jpg
i is: ./b.jpg and j is: ./b.jpg   ## BAD will delete b.jpg
```
for i in directory_path除非您传递目录数组，否则您不想运行。如果所有这些文件都在同一目录中，您需要运行for i in $(find directory_path -iname "*.jpg") 来遍历所有文件。
这是一个坏主意for对 find 的输出使用循环。你应该使用while循环或通配:
```
find . -iname "*.jpg" | while read i; do [...] ; done
```
或者，如果所有文件都位于同一目录中：
```
for i in *jpg; do [...]; done
```
根据您的 shell 和您设置的选项，您甚至可以对子目录中的文件使用通配符，但我们在这里不讨论这一点。
最后，您还应该引用变量，否则带有空格的目录路径会破坏您的脚本。

文件名可以包含空格、换行符、反斜杠和其他奇怪的字符，为了在循环中正确处理这些字符，while您需要添加更多选项。你想写的是这样的：

find dir_path -type f -iname "*.jpg" -print0 | while IFS= read -r -d '' i; do
  find dir_path -type f -iname "*.jpg" -print0 | while IFS= read -r -d '' j; do
    if [ "$i" != "$j" ]
    then
      sum1=$(md5sum "$i" | cut -f 1 -d ' ' )
      sum2=$(md5sum "$j" | cut -f 1 -d ' ' )
      [ "$sum1" = "$sum2" ] && rm "$j"
    fi
  done
done

更简单的方法是：

find directory_path -name "*.jpg" -exec md5sum '{}' + | 
 perl -ane '$k{$F[0]}++; system("rm $F[1]") if $k{$F[0]}>1'

可以处理文件名中空格的更好版本：

find directory_path -name "*.jpg" -exec md5sum '{}' + | 
 perl -ane '$k{$F[0]}++; system("rm \"@F[1 .. $#F]\"") if $k{$F[0]}>1'

这个 Perl 小脚本将运行find命令的结果（即 md5sum 和文件名）。选项在空白处分割输入行并将它们保存在-a数组中，md5sum 和文件名也将如此。 md5sum 保存在散列中，脚本检查散列是否已被看到 ( )，如果有则删除文件 ( )。perlF$F[0]$F[1]kif $k{$F[0]}>1system("rm $F[1]")

虽然这可行，但对于大型图像集合来说，速度会非常慢，而且您无法选择要保留哪些文件。有许多程序可以以更优雅的方式处理此问题，包括：

fdupes
fslint
列出的各种其他选项这里。

Answer