比较目录中的文件

Question 1

这确实取决于文件是否可能基本相同。数千次比较的呈现也完全令人困惑，除非您可以识别“参考版本”或某些渐进修改序列。

我曾经受命解决一个存在可靠性问题的推出机制问题。有 160 台服务器，拥有电力网络站点各层的 16,000 个图像文件，即 250 万个文件。

基本上，我让他们投票选出最受欢迎的版本。我让每个服务器都有自己的文件校验和，并向我发送校验和、日期、大小、名称的列表。我通过校验和进行分组和计数。任何在整个集合中 100% 一致的文件都可以。任何符合 80% 以上情况的内容都会显示那些错过更新的服务器。任何低于 20% 的内容都是删除失败，或者是恶意测试文件。在 20% 到 80% 范围内的人很少。

在我的用例中，也很容易检测到上传到不同服务器且名称或路径错误的图像文件。

这种方法可能无法解决您的问题，但它可以大大减少您需要进行详细比较的次数。

Answer

这确实取决于文件是否可能基本相同。数千次比较的呈现也完全令人困惑，除非您可以识别“参考版本”或某些渐进修改序列。

我曾经受命解决一个存在可靠性问题的推出机制问题。有 160 台服务器，拥有电力网络站点各层的 16,000 个图像文件，即 250 万个文件。

基本上，我让他们投票选出最受欢迎的版本。我让每个服务器都有自己的文件校验和，并向我发送校验和、日期、大小、名称的列表。我通过校验和进行分组和计数。任何在整个集合中 100% 一致的文件都可以。任何符合 80% 以上情况的内容都会显示那些错过更新的服务器。任何低于 20% 的内容都是删除失败，或者是恶意测试文件。在 20% 到 80% 范围内的人很少。

在我的用例中，也很容易检测到上传到不同服务器且名称或路径错误的图像文件。

这种方法可能无法解决您的问题，但它可以大大减少您需要进行详细比较的次数。

Question 2

你可以试试这个脚本。

我根据首选输出添加了diffor命令。comm

for i in /home/user1/music_list/*.txt; do
        index_file="$i"
        echo "$(tput setaf 1)Comparing "$i" $(tput sgr 0)"
        for n in /home/user1/music_list/*.txt; do
                next_file="$n"
                echo "$(tput setaf 5)With "$n" $(tput sgr 0)"
                #comm -3 <(sort "$index_file") <(sort "$next_file")
                diff -s <(sort "$index_file") <(sort "$next_file")
                shift
        done
done

输出与comm

Comparing z.txt
With z1.txt
With z2.txt
1
        2
With z3.txt
1
        22
With z4.txt
1
        222

comm当名称相同时，将打印名称但不输出z1.txt

输出与diff

Comparing z.txt
With z1.txt
Files /dev/fd/63 and /dev/fd/62 are identical
With z2.txt
1c1
< 1
---
> 2
With z3.txt
1c1
< 1
---
> 22
With z4.txt
1c1
< 1
---
> 222

Answer

你可以试试这个脚本。

我根据首选输出添加了diffor命令。comm

for i in /home/user1/music_list/*.txt; do
        index_file="$i"
        echo "$(tput setaf 1)Comparing "$i" $(tput sgr 0)"
        for n in /home/user1/music_list/*.txt; do
                next_file="$n"
                echo "$(tput setaf 5)With "$n" $(tput sgr 0)"
                #comm -3 <(sort "$index_file") <(sort "$next_file")
                diff -s <(sort "$index_file") <(sort "$next_file")
                shift
        done
done

输出与comm

Comparing z.txt
With z1.txt
With z2.txt
1
        2
With z3.txt
1
        22
With z4.txt
1
        222

comm当名称相同时，将打印名称但不输出z1.txt

输出与diff

Comparing z.txt
With z1.txt
Files /dev/fd/63 and /dev/fd/62 are identical
With z2.txt
1c1
< 1
---
> 2
With z3.txt
1c1
< 1
---
> 22
With z4.txt
1c1
< 1
---
> 222

Question 3

/some/dir要（递归地）一对一比较所有常规文件，您可以执行以下操作zsh：

function {
  local fileA fileB
  for fileA do
    shift
    for fileB do
      diff -su $fileA $fileB
    done
  done
} /some/dir/**/*(ND.)

这里显示了统一格式与上下文的差异-u以及文件相同时的报告-s（非标准）。

但请注意，如果文件超过 100 个，则需要进行数千次一对一比较。

使用 GNU diff，添加--color=always选项diff并将匿名函数的输出传递给less -R可能会使该输出更容易接受。

bash与代替相同zsh，但假设版本 4.4 或更高版本（对于）以及和实用程序readarray -d的 GNU 实现（或兼容）（对于它们的和扩展）：findsort-print0-z

(
  readarray -td '' files < <(
    find /some/dir/ -type f -print0 | sort -z)
  set -- "${files[@]}"
  for fileA do
    shift
    for fileB do
      diff -su "$fileA" "$fileB"
    done
  done
)

如果存在大量重复，您可以通过首先指示哪些文件相同来减少比较次数，然后仅在每组相同文件中选择一个文件与其他组中的一个文件进行比较。

和zsh：

typeset -A set
files=(/some/dir/**/*(ND.))
for file in $files; do
  sum=$(sha1sum < $file) || continue
  # store the list of files having a given checksum NUL delimited
  # in an associative array
  set[$sum]+=$file$'\0'
done
sums=(${(k)set})
for sum1 in $sums; do
  shift 1 sums
  files1=(${(0)set[$sum1]}) # split on NUL
  (( $#files < 2 )) || print -r All of ${(j[, ])files1} are identical
  for sum2 in $sums; do
    files2=(${(0)set[$sum2]})
    diff -u $files1[1] $files2[1]
  done
done

（未经测试）。

Answer