查找名称相同但内容不同的文件？

Question 1

更新：修复了脚本中的拼写错误：更改print $NF为print $3；还整理了一些东西，并添加了一些评论。

假设文件名字不包含\n，以下打印出一个中断的排序列表（如：部分控制中断) 在 unique file name, unique 处md5sum，并显示相应的文件路径组。

#!/bin/bash

# Choose which script to use for the final awk step 
out_script=out_all

# Print all duplicated file names, even when md5sum is the same 
out_all='{ if( p1 != $1 ) { print nl $1; print I $2 }
      else if( p2 != $2 ) { print I $2 }
      print I I $3; p1=$1; p2=$2; nl="\n" }
   END { printf nl}'

# Print only duplicated file names which have multiple md5sums.
out_only='{ if( p1 != $1 ) { if( multi ) { print pend }
                             multi=0; pend=$1 "\n" I $2 "\n" }
       else if( p2 != $2 ) { multi++; pend=pend I $2 "\n" } 
       pend=pend I I $3 "\n"; p1=$1; p2=$2 } 
   END { if( multi ) print pend }'

# The main pipeline 
find "${1:-.}" -type f -name '*' |  # awk for duplicate names
awk -F/ '{ if( name[$NF] ) { dname[$NF]++ }
           name[$NF]=name[$NF] $0 "\n" } 
     END { for( d in dname ) { printf name[d] } 
   }' |                             # standard md5sum output 
xargs -d'\n' md5sum |               # " "==text, "*"==binary
sed 's/ [ *]/\x00/' |               # prefix with file name  
awk -F/ '{ print $3 "\x00" $0 }' |  # sort by name. md5sum, path 
sort |                              # awk to print result
awk -F"\x00" -v"I=   " "${!out_script}"

输出显示仅有的文件名与多种的 md5s

afile.html
   53232474d80cf50b606069a821374a0a
      ./test/afile.html
      ./test/dir.svn/afile.html
   6b1b4b5b7aa12cdbcc72a16215990417
      ./test/dir.svn/dir.show/afile.html

输出显示全部具有相同名称的文件。

afile.html
   53232474d80cf50b606069a821374a0a
      ./test/afile.html
      ./test/dir.svn/afile.html
   6b1b4b5b7aa12cdbcc72a16215990417
      ./test/dir.svn/dir.show/afile.html

fi    le.html
   53232474d80cf50b606069a821374a0a
      ./test/dir.svn/dir.show/fi    le.html
      ./test/dir.svn/dir.svn/fi    le.html

file.html
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.html
      ./test/dir.show/dir.svn/file.html

file.svn
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.svn
      ./test/dir.show/dir.svn/file.svn
      ./test/dir.svn/dir.show/file.svn
      ./test/dir.svn/dir.svn/file.svn

file.txt
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.txt
      ./test/dir.show/dir.svn/file.txt
      ./test/dir.svn/dir.show/file.txt
      ./test/dir.svn/dir.svn/file.txt

Answer

更新：修复了脚本中的拼写错误：更改print $NF为print $3；还整理了一些东西，并添加了一些评论。

假设文件名字不包含\n，以下打印出一个中断的排序列表（如：部分控制中断) 在 unique file name, unique 处md5sum，并显示相应的文件路径组。

#!/bin/bash

# Choose which script to use for the final awk step 
out_script=out_all

# Print all duplicated file names, even when md5sum is the same 
out_all='{ if( p1 != $1 ) { print nl $1; print I $2 }
      else if( p2 != $2 ) { print I $2 }
      print I I $3; p1=$1; p2=$2; nl="\n" }
   END { printf nl}'

# Print only duplicated file names which have multiple md5sums.
out_only='{ if( p1 != $1 ) { if( multi ) { print pend }
                             multi=0; pend=$1 "\n" I $2 "\n" }
       else if( p2 != $2 ) { multi++; pend=pend I $2 "\n" } 
       pend=pend I I $3 "\n"; p1=$1; p2=$2 } 
   END { if( multi ) print pend }'

# The main pipeline 
find "${1:-.}" -type f -name '*' |  # awk for duplicate names
awk -F/ '{ if( name[$NF] ) { dname[$NF]++ }
           name[$NF]=name[$NF] $0 "\n" } 
     END { for( d in dname ) { printf name[d] } 
   }' |                             # standard md5sum output 
xargs -d'\n' md5sum |               # " "==text, "*"==binary
sed 's/ [ *]/\x00/' |               # prefix with file name  
awk -F/ '{ print $3 "\x00" $0 }' |  # sort by name. md5sum, path 
sort |                              # awk to print result
awk -F"\x00" -v"I=   " "${!out_script}"

输出显示仅有的文件名与多种的 md5s

afile.html
   53232474d80cf50b606069a821374a0a
      ./test/afile.html
      ./test/dir.svn/afile.html
   6b1b4b5b7aa12cdbcc72a16215990417
      ./test/dir.svn/dir.show/afile.html

输出显示全部具有相同名称的文件。

afile.html
   53232474d80cf50b606069a821374a0a
      ./test/afile.html
      ./test/dir.svn/afile.html
   6b1b4b5b7aa12cdbcc72a16215990417
      ./test/dir.svn/dir.show/afile.html

fi    le.html
   53232474d80cf50b606069a821374a0a
      ./test/dir.svn/dir.show/fi    le.html
      ./test/dir.svn/dir.svn/fi    le.html

file.html
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.html
      ./test/dir.show/dir.svn/file.html

file.svn
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.svn
      ./test/dir.show/dir.svn/file.svn
      ./test/dir.svn/dir.show/file.svn
      ./test/dir.svn/dir.svn/file.svn

file.txt
   53232474d80cf50b606069a821374a0a
      ./test/dir.show/dir.show/file.txt
      ./test/dir.show/dir.svn/file.txt
      ./test/dir.svn/dir.show/file.txt
      ./test/dir.svn/dir.svn/file.txt

Question 2

这是一个 Perl 脚本。在您要搜索的树顶部的目录中运行它。该脚本依赖于find和md5，但后者可以替换为sha1,sum或任何其他接受 stdin 上的输入并在 stdout 上输出哈希值的文件哈希程序。

use strict;

my %files;
my %nfiles;
my $HASHER = 'md5';

sub
print_array
{
    for my $x (@_) {
        print "$x\n";
    }
}

open FINDOUTPUT, "find . -type f -print|" or die "find";

while (defined (my $line = <FINDOUTPUT>)) {
    chomp $line;
    my @segments = split /\//, $line;
    my $shortname = pop @segments;
    push @{ $files{$shortname} }, $line;
    $nfiles{$shortname}++;
}

for my $shortname (keys %files) {
    if ($nfiles{$shortname} < 2) {
        print_array @{ $files{$shortname} };
        next;
    }
    my %nhashes;
    my %revhashes;
    for my $file (@{ $files{$shortname} }) {
        my $hash = `$HASHER < $file`;
        $revhashes{$hash} = $file;
        $nhashes{$hash}++;
    }
    for my $hash (keys %nhashes) {
        if ($nhashes{$hash} < 2) {
            my $file = $revhashes{$hash};
            print "$file\n";
        }
    }
}

Answer

这是一个 Perl 脚本。在您要搜索的树顶部的目录中运行它。该脚本依赖于find和md5，但后者可以替换为sha1,sum或任何其他接受 stdin 上的输入并在 stdout 上输出哈希值的文件哈希程序。

use strict;

my %files;
my %nfiles;
my $HASHER = 'md5';

sub
print_array
{
    for my $x (@_) {
        print "$x\n";
    }
}

open FINDOUTPUT, "find . -type f -print|" or die "find";

while (defined (my $line = <FINDOUTPUT>)) {
    chomp $line;
    my @segments = split /\//, $line;
    my $shortname = pop @segments;
    push @{ $files{$shortname} }, $line;
    $nfiles{$shortname}++;
}

for my $shortname (keys %files) {
    if ($nfiles{$shortname} < 2) {
        print_array @{ $files{$shortname} };
        next;
    }
    my %nhashes;
    my %revhashes;
    for my $file (@{ $files{$shortname} }) {
        my $hash = `$HASHER < $file`;
        $revhashes{$hash} = $file;
        $nhashes{$hash}++;
    }
    for my $hash (keys %nhashes) {
        if ($nhashes{$hash} < 2) {
            my $file = $revhashes{$hash};
            print "$file\n";
        }
    }
}

Question 3

查找杜普该工具还可以帮助您列出具有相同名称或内容的文件。

Answer

查找杜普该工具还可以帮助您列出具有相同名称或内容的文件。

Question 4

这是我的单行解决方案：

find . -type f -exec basename {} \; | sort | uniq -d | xargs -n 1 -I {name} sh -c 'echo {name}; find . -type f -name {name} -exec md5sum {} \;; echo'

它打印如下结果集，其中文件按文件名分组，并为每个文件提供重复项的路径列表及其 md5 和：

file1.pdf
1983af4bc5c5e3fff33fb87b59147e0e  ./folder1/file1.pdf
6d028226d0a08745c1d2993043e0baba  ./folder2/file1.pdf
5830a22229a843a0bcc70d8d59419f03  ./folder3/file1.pdf
51d1844aad6bfddc60e381090d504a71  ./folder4/file1.pdf

file2.pdf
bd2c5037621998abcf3d33eb826dbfa6  ./folder1/file2.pdf
bd2c5037621998abcf3d33eb826dbfa6  ./folder2/file2.pdf

Answer

这是我的单行解决方案：

find . -type f -exec basename {} \; | sort | uniq -d | xargs -n 1 -I {name} sh -c 'echo {name}; find . -type f -name {name} -exec md5sum {} \;; echo'

它打印如下结果集，其中文件按文件名分组，并为每个文件提供重复项的路径列表及其 md5 和：

file1.pdf
1983af4bc5c5e3fff33fb87b59147e0e  ./folder1/file1.pdf
6d028226d0a08745c1d2993043e0baba  ./folder2/file1.pdf
5830a22229a843a0bcc70d8d59419f03  ./folder3/file1.pdf
51d1844aad6bfddc60e381090d504a71  ./folder4/file1.pdf

file2.pdf
bd2c5037621998abcf3d33eb826dbfa6  ./folder1/file2.pdf
bd2c5037621998abcf3d33eb826dbfa6  ./folder2/file2.pdf

查找名称相同但内容不同的文件？

答案1

答案2

答案3

答案4

相关内容