递归地从文件中删除重复的行，但保留一行 - 使行在文件中唯一

Question 1

#!/usr/bin/perl
use File::Find;
my $headdir="/some/path";
my @files=();
my $lines={};
find( { wanted => sub { push @files, $_ }, no_chdir => 1 }, $headdir );
foreach my $file (@files) {
  next unless(-f $file);
  system "cp $file $file". ".old";
  open(my $fhin, "$file".".old");
  open(my $fhout, ">$file");
  while(<$fhin>) {
    if(not defined $lines->{$_}) {
      print $fhout $_;
      $lines->{$_} = 1;
    }
  }
  close($fhin);
  close($fhout);
  #optional: system("rm $file".".old");
}

编辑：（仅）使用问题中提到的文件进行测试，需要对代码进行微小的更改

Answer

#!/usr/bin/perl
use File::Find;
my $headdir="/some/path";
my @files=();
my $lines={};
find( { wanted => sub { push @files, $_ }, no_chdir => 1 }, $headdir );
foreach my $file (@files) {
  next unless(-f $file);
  system "cp $file $file". ".old";
  open(my $fhin, "$file".".old");
  open(my $fhout, ">$file");
  while(<$fhin>) {
    if(not defined $lines->{$_}) {
      print $fhout $_;
      $lines->{$_} = 1;
    }
  }
  close($fhin);
  close($fhout);
  #optional: system("rm $file".".old");
}

编辑：（仅）使用问题中提到的文件进行测试，需要对代码进行微小的更改

Question 2

仅当要处理的文件数量小到足以find运行awk一次时，下面的操作才有效。它还假设您可以复制整个文件树（即您不受存储限制）。

假设您的文件树位于orig目录中：

$ cp -pr orig tmp
$ cd tmp
$ find . -type f -exec awk '
  BEGIN { print ARGC }
  FILENAME != fn {
    close( "../orig/"fn )
    printf "" > ( "../orig/"FILENAME )
  }
  !seen[$0]++ { print > ( "../orig/"FILENAME ) }
  { fn = FILENAME; }' {} +

一旦您对结果满意，您就可以rm -r tmp。

print ARGCawk用于显示被调用的次数。ARGC是命令行参数数组中的元素数量（包括脚本本身）；看到它多次打印意味着全局行重复数据删除失败。
（事实上，如果您可以计算要处理的文件总数，则可以更改该块if ( (ARGC - 1) < total_number_of_files) exit以确保在awk要多次调用时不会修改任何文件）。

Answer

仅当要处理的文件数量小到足以find运行awk一次时，下面的操作才有效。它还假设您可以复制整个文件树（即您不受存储限制）。

假设您的文件树位于orig目录中：

$ cp -pr orig tmp
$ cd tmp
$ find . -type f -exec awk '
  BEGIN { print ARGC }
  FILENAME != fn {
    close( "../orig/"fn )
    printf "" > ( "../orig/"FILENAME )
  }
  !seen[$0]++ { print > ( "../orig/"FILENAME ) }
  { fn = FILENAME; }' {} +

一旦您对结果满意，您就可以rm -r tmp。

print ARGCawk用于显示被调用的次数。ARGC是命令行参数数组中的元素数量（包括脚本本身）；看到它多次打印意味着全局行重复数据删除失败。
（事实上，如果您可以计算要处理的文件总数，则可以更改该块if ( (ARGC - 1) < total_number_of_files) exit以确保在awk要多次调用时不会修改任何文件）。

递归地从文件中删除重复的行，但保留一行 - 使行在文件中唯一

答案1

答案2

相关内容