如何对三个文件执行“分组合并”，同时省略每个文件的前几行？

Question 1

应用DSU 习语，使用任何版本的强制 POSIX 工具 awk、sort 和 cut：

$ cat tst.sh
#!/usr/bin/env bash

awk -v OFS='\t' '
    FNR == 1 { fileNr++ }
    FNR >= 4 { print FNR-3, fileNr, $0 }
' "${@:--}" |
sort -n -k1,1 -k2,2 |
awk '($1 % 2) || ($2 == 1)' |
cut -f 3-

$  ./tst.sh file01.txt file02.txt file03.txt
line to keep file 01
line to keep file 02
line to keep file 03
heading 1 in the form: 2017243 01 2017243 01
data 1 file 01
data 1 file 02
data 1 file 03
heading 2 in the form: 2017243 02 2017243 02
data 2 file 01
data 2 file 02
data 2 file 03
heading 3 in the form: 2017243 03 2017243 03
data 3 file 01
data 3 file 02
data 3 file 03

上面唯一必须立即处理所有输入的工具是sort设计用于通过使用需求分页等来处理大量输入的，因此无论您有多少个输入文件（只要它们当然不要超过 ARG_MAX）或它们有多大。

或者，使用任何 awk 并假设输入文件的数量不足以产生“打开文件过多”错误：

$ cat tst.awk
BEGIN {
    while ( ! eof ) {
        for ( fileNr=1; fileNr<ARGC; fileNr++ ) {
            if ( (getline vals[fileNr] < ARGV[fileNr]) <= 0 ) {
                eof = 1
            }
        }
        if ( !eof && (++lineNr >= 4) ) {
            if ( lineNr % 2 ) {
                print vals[1]
            }
            else {
                for ( fileNr=1; fileNr<ARGC; fileNr++ ) {
                    print vals[fileNr]
                }
            }
        }
    }
    exit
}

$ awk -f tst.awk file01.txt file02.txt file03.txt
line to keep file 01
line to keep file 02
line to keep file 03
heading 1 in the form: 2017243 01 2017243 01
data 1 file 01
data 1 file 02
data 1 file 03
heading 2 in the form: 2017243 02 2017243 02
data 2 file 01
data 2 file 02
data 2 file 03
heading 3 in the form: 2017243 03 2017243 03
data 3 file 01
data 3 file 02
data 3 file 03

我getline在上面谨慎使用以避免一次将大部分输入文件读入内存，请参阅http://awk.freeshell.org/AllAboutGetline有关何时/如何使用它的更多信息。

Answer

应用DSU 习语，使用任何版本的强制 POSIX 工具 awk、sort 和 cut：

$ cat tst.sh
#!/usr/bin/env bash

awk -v OFS='\t' '
    FNR == 1 { fileNr++ }
    FNR >= 4 { print FNR-3, fileNr, $0 }
' "${@:--}" |
sort -n -k1,1 -k2,2 |
awk '($1 % 2) || ($2 == 1)' |
cut -f 3-

$  ./tst.sh file01.txt file02.txt file03.txt
line to keep file 01
line to keep file 02
line to keep file 03
heading 1 in the form: 2017243 01 2017243 01
data 1 file 01
data 1 file 02
data 1 file 03
heading 2 in the form: 2017243 02 2017243 02
data 2 file 01
data 2 file 02
data 2 file 03
heading 3 in the form: 2017243 03 2017243 03
data 3 file 01
data 3 file 02
data 3 file 03

上面唯一必须立即处理所有输入的工具是sort设计用于通过使用需求分页等来处理大量输入的，因此无论您有多少个输入文件（只要它们当然不要超过 ARG_MAX）或它们有多大。

或者，使用任何 awk 并假设输入文件的数量不足以产生“打开文件过多”错误：

$ cat tst.awk
BEGIN {
    while ( ! eof ) {
        for ( fileNr=1; fileNr<ARGC; fileNr++ ) {
            if ( (getline vals[fileNr] < ARGV[fileNr]) <= 0 ) {
                eof = 1
            }
        }
        if ( !eof && (++lineNr >= 4) ) {
            if ( lineNr % 2 ) {
                print vals[1]
            }
            else {
                for ( fileNr=1; fileNr<ARGC; fileNr++ ) {
                    print vals[fileNr]
                }
            }
        }
    }
    exit
}

$ awk -f tst.awk file01.txt file02.txt file03.txt
line to keep file 01
line to keep file 02
line to keep file 03
heading 1 in the form: 2017243 01 2017243 01
data 1 file 01
data 1 file 02
data 1 file 03
heading 2 in the form: 2017243 02 2017243 02
data 2 file 01
data 2 file 02
data 2 file 03
heading 3 in the form: 2017243 03 2017243 03
data 3 file 01
data 3 file 02
data 3 file 03

我getline在上面谨慎使用以避免一次将大部分输入文件读入内存，请参阅http://awk.freeshell.org/AllAboutGetline有关何时/如何使用它的更多信息。

Question 2

我确实将您上面给出的模式保存在三个文件中。我通过这种方式得到了完成 awk 过滤所需的输出：

for i in {4..15}; do awk "FNR == $i" *.txt | sort -u; done

Answer

我确实将您上面给出的模式保存在三个文件中。我通过这种方式得到了完成 awk 过滤所需的输出：

for i in {4..15}; do awk "FNR == $i" *.txt | sort -u; done

Question 3

如果您不介意使用 awk 以外的其他工具：

for f in $(ls *.txt) ; do awk 'FNR >=4' $f | egrep "." -n ; done | sort -n | uniq | cut -d: -f2-

会成功的

解释：

for 循环将从每个文件中删除前 3 行（使用 awk）并对它们进行计数（使用 egrep -n 和任何 char 作为 grep 的条件）
然后将按行号对输出进行排序
然后将删除重复的标题行
最后将删除行号

更新：

我删除了egrep的使用，因为awk已经遍历了整个文件，它还可以将行号添加到输出中（避免读取文件两次）。

for f in $(ls *.txt) ; do awk 'FNR >=4 {printf("%s#%s\n", FNR-3, $0)}' $f ; done | sort -n | uniq | cut -d# -f2-

Answer