在递归压缩档案中搜索特定大小的文件

在递归压缩档案中搜索特定大小的文件

我有一个包含多个文件的文件夹。这些文件是.xml.zip文件。这些.zip文件包含.xml和/或.zip文件。这些.zip还包含.xml.zip,依此类推...直到我们最终找到.xml文件。

换句话说,在找到我的.xml文件之前我可以有几个“级别”的 zip(参见下面的示例)。

我的要求是检测哪个ZIP 文件至少包含一个大于 100Mb 的 XML 文件。当 ZIP 文件处于这种情况时,应该将其移动到另一个目录(比如说~/big-files)。另外,如果非压缩.xml文件大于 100Mb,则应将其移动到此目录。

例如:

foo1.xml
foo2.xml
baz.xml [MORE THAN 100Mb]
one.zip
  +- foo.xml
  +- bar.xml [MORE THAN 100Mb]
  +- foo.xml
two.zip
  +- foo.xml
  +- zip-inside1.zip
  |   +- bar.xml [MORE THAN 100Mb]
  +- foo.xml
three.zip
  +- foo.xml
  +- zip-inside2.zip
  |   +- zip-inside3.zip
  |       +- foo.xml
  |       +- bar.xml [MORE THAN 100Mb]
  +- foo.xml
four.zip
  +- foo.xml
  +- zip-inside1.zip
      +- foo.xml

在这个例子中,巴兹.xml,一个.zip,两个.zip三.zip应该移动到,~/big-files因为它们至少托管一个大于 100Mb 的 XML 文件,但不是四.zip

我怎样才能在 bash shell 中实现这一点?

谢谢。

答案1

首先,安装AVFS,一个提供档案内部透明访问的文件系统,并运行命令mountavfs。看如何递归地 grep 遍历压缩档案?为背景。

此后,如果/path/to/archive.zip是一个可识别的存档,则~/.avfs/path/to/archive.zip#是一个似乎包含该存档内容的目录。

编写一个名为 的辅助脚本has_large_file_rec,在作为参数传递的 zip 文件中查找大型 XML 文件,并在每个嵌入的 zip 文件上递归调用自身。如果该脚本发现其中有一个大的 XML 文件,则会生成一些输出。为了提高效率,输出被截断,因为一旦我们找到一个大的 XML 文件,我们就可以停止搜索。

#!/bin/sh
## auxiliary script has_large_file_rec
find "$1#" -name '*.zip' -type f -exec has_large_file_rec {} \; \
        -o -name '*.xml' -type f -size +1024k -print | head -n 1

在顶层,如果发现大文件,请将其移至大文件目录。

find "~/.avfs$PWD" \
  -name '*.zip' -sh -c '
      a=$(has_large_file_rec "$0")
      if [ -n "$a" ]; then mv "$0" ~/big-files/; fi
                       ' {} \; -o \
  -name '*.xml' -type f -size +1024k -exec mv {} ~/big-files/ \;

答案2

一种方法是使用perl.

内容script.pl

use warnings;
use strict;
use Archive::Extract;
use List::Util qw|first|;
use File::Copy qw|move|;
use File::Spec;
use File::Path qw|remove_tree|;

## Path to save 'xml' and 'zip' files.
my $big_files_dir = qq|$ENV{HOME}/big_files/|;

## Temp dir to extract files of 'zips'.
my $zips_path = qq|/tmp/zips$$/|;

## Size in bytes to check 'xml' files.
my $file_max_size_bytes = 100 * 1024 * 1024;

my (@zips_to_move, $orig_zip);

## Get files to process.
my @files = <*.xml *.zip>;                                                                                                                                                                                                                   

## From previous list, copy 'xml' files bigger than size limit.                                                                                                                                                                              
for my $file ( @files ) {                                                                                                                                                                                                                    
        if ( substr( $file, -4 ) eq q|.xml| and -s $file > $file_max_size_bytes ) {                                                                                                                                                          
                move $file, $big_files_dir;                                                                                                                                                                                                  
        }                                                                                                                                                                                                                                    
}                                                                                                                                                                                                                                            

## Process now 'zip' files. For each one remove temp dir to avoid mixing files                                                                                                                                                               
## from different 'zip' files.                                                                                                                                                                                                               
for ( grep { m/\.zip\Z/ } @files ) {                                                                                                                                                                                                         
        remove_tree $zips_path;                                                                                                                                                                                                              
        $orig_zip = $_;                                                                                                                                                                                                                      
        handle_zip_file( $orig_zip );                                                                                                                                                                                                        
}                                                                                                                                                                                                                                            

## Copy 'zip' files got until now.                                                                                                                                                                                                           
for my $zip_file ( @zips_to_move ) {                                                                                                                                                                                                         
        move $zip_file, $big_files_dir;                                                                                                                                                                                                      
}                                                                                                                                                                                                                                            

## Traverse recursively each 'zip file. It will look for 'zip' file in the                                                                                                                                                                   
## subtree and will extract all 'xml' files to a temp dir. Base case is when                                                                                                                                                                 
## a 'zip' file only contains 'xml' files, then I will read size of all 'xmls'                                                                                                                                                               
## and will copy the 'zip' if at least one of them if bigger than the size limit.                                                                                                                                                            
## To avoid an infinite loop searching into 'zip' files, I delete them just after                                                                                                                                                            
## the extraction of its content.                                                                                                                                                                                                            
sub handle_zip_file {                                                                                                                                                                                                                        
        my ($file) = @_;                                                                                                                                                                                                                     

        my $ae = Archive::Extract->new(                                                                                                                                                                                                      
                archive => $file,                                                                                                                                                                                                            
                type => q|zip|,                                                                                                                                                                                                              
        );                                                                                                                                                                                                                                   

        $ae->extract(
                to => $zips_path,
        );

        ## Don't check fails. I don't worry about them, ¿perhaps should I?
        unlink( File::Spec->catfile( 
                                (File::Spec->splitpath( $zips_path ))[1], 
                                (File::Spec->splitpath( $file ))[2],
                        )
        );

        my $zip = first { substr( $_, -4 ) eq q|.zip| } <$zips_path/*>;
        if ( ! $zip ) {
                for my $f ( <$zips_path/*.xml> ) {
                        if ( substr( $f, -4 ) eq q|.xml| and -s $f > $file_max_size_bytes ) {
                                push @zips_to_move, $orig_zip;
                                last;
                        }
                }
                return;
        }

        handle_zip_file( $zip );
}

一些问题:

  • xmlzip当复制到临时目录时,文件子树中具有相同名称的文件将被覆盖。
  • 该程序提取同一树的所有 zip 文件的内容,然后检查是否xml大于 100MB。每次解压缩 zip 文件时进行检查会更快。它可以改进。
  • 它不会缓存多次处理的 zip 文件。
  • ~/big_files必须存在并且可写。
  • 该脚本不接受参数。您必须在zip与 和文件相同的目录中运行它xml

正如您在前面的几点中看到的那样,它并不完美,但它在我的测试中有效。我希望它对你有用。

像这样运行它:

perl script.pl

相关内容