通过匹配标题将列合并到一个文件中

Question 1

$ perl -lane '$,="\t";
   print(qw/var x y/),next if $. == 1;
   push @A, shift @F;
   $A[$|--+1] += $_ for @F;
   print splice @A;
' file

结果：

var x   y
a   2   2
b   2   2
c   1   1

假设：

字段数量为奇数。
Field#2 及之后的字段均为数字。

解释（简短的）：

标题已明确打印，如 OP 所示。
@A通过在使用该函数打印数组时清空数组，为每一行重新填充数组splice。
数组@F存储输入记录的字段$_，零索引。
数组的第一个元素（而不是第零个元素）@A从数组的前面移出@F。请注意，每次读入新记录@F时都会生成数组perl。这类似于$1, $2, $3, ..., $NF中的字段awk。
数组的其余部分@A是一个二进制(0|1)+1=>(1|2)元素索引，它累加数组中的相应总和@F。

希望它是清楚的。

Answer

$ perl -lane '$,="\t";
   print(qw/var x y/),next if $. == 1;
   push @A, shift @F;
   $A[$|--+1] += $_ for @F;
   print splice @A;
' file

结果：

var x   y
a   2   2
b   2   2
c   1   1

假设：

字段数量为奇数。
Field#2 及之后的字段均为数字。

解释（简短的）：

标题已明确打印，如 OP 所示。
@A通过在使用该函数打印数组时清空数组，为每一行重新填充数组splice。
数组@F存储输入记录的字段$_，零索引。
数组的第一个元素（而不是第零个元素）@A从数组的前面移出@F。请注意，每次读入新记录@F时都会生成数组perl。这类似于$1, $2, $3, ..., $NF中的字段awk。
数组的其余部分@A是一个二进制(0|1)+1=>(1|2)元素索引，它累加数组中的相应总和@F。

希望它是清楚的。

Question 2

使用相当冗长的变量名称和中间变量来帮助您理解发生了什么（而不是注释每一行或稍后添加解释）：

$ cat tst.awk
BEGIN { FS=OFS="\t" }
NR==1 {
    for (inFldNr=2; inFldNr<=NF; inFldNr++) {
        fldName = $inFldNr
        if ( !(fldName in fldName2outFldNr) ) {
            outFldNr2name[++numOutFlds] = fldName
            fldName2outFldNr[fldName] = numOutFlds
        }
        outFldNr = fldName2outFldNr[fldName]
        out2inFldNrs[outFldNr,++numInFlds[outFldNr]] = inFldNr
    }

    printf "%s%s", $1, OFS
    for (outFldNr=1; outFldNr<=numOutFlds; outFldNr++) {
        outFldName = outFldNr2name[outFldNr]
        printf "%s%s", outFldName, (outFldNr<numOutFlds ? OFS : ORS)
    }
    next
}
{
    printf "%s%s", $1, OFS
    for (outFldNr=1; outFldNr<=numOutFlds; outFldNr++) {
        sum = 0
        for (inFldIdx=1; inFldIdx<=numInFlds[outFldNr]; inFldIdx++) {
            inFldNr = out2inFldNrs[outFldNr,inFldIdx]
            sum += $inFldNr
        }
        printf "%s%s", sum, (outFldNr<numOutFlds ? OFS : ORS)
    }
}

。

$ awk -f tst.awk file
var     x       y
a       2       2
b       2       2
c       1       1

Answer

使用相当冗长的变量名称和中间变量来帮助您理解发生了什么（而不是注释每一行或稍后添加解释）：

$ cat tst.awk
BEGIN { FS=OFS="\t" }
NR==1 {
    for (inFldNr=2; inFldNr<=NF; inFldNr++) {
        fldName = $inFldNr
        if ( !(fldName in fldName2outFldNr) ) {
            outFldNr2name[++numOutFlds] = fldName
            fldName2outFldNr[fldName] = numOutFlds
        }
        outFldNr = fldName2outFldNr[fldName]
        out2inFldNrs[outFldNr,++numInFlds[outFldNr]] = inFldNr
    }

    printf "%s%s", $1, OFS
    for (outFldNr=1; outFldNr<=numOutFlds; outFldNr++) {
        outFldName = outFldNr2name[outFldNr]
        printf "%s%s", outFldName, (outFldNr<numOutFlds ? OFS : ORS)
    }
    next
}
{
    printf "%s%s", $1, OFS
    for (outFldNr=1; outFldNr<=numOutFlds; outFldNr++) {
        sum = 0
        for (inFldIdx=1; inFldIdx<=numInFlds[outFldNr]; inFldIdx++) {
            inFldNr = out2inFldNrs[outFldNr,inFldIdx]
            sum += $inFldNr
        }
        printf "%s%s", sum, (outFldNr<numOutFlds ? OFS : ORS)
    }
}

。

$ awk -f tst.awk file
var     x       y
a       2       2
b       2       2
c       1       1

Question 3

使用 GNU datamash：

<file datamash -W transpose | 
  datamash -W --headers -s -g1 sum 2-4 |
  datamash --output-delimiter=' ' transpose

使用空格作为分隔符转置文件 ( -W)
对第一个字段 ( -g1) 进行分组，在分组 ( -s) 之前进行排序，并对字段 2-4 上的值求和。第一个输入行被视为列标题并打印在输出中 ( --headers)
转置结果并使用空格字符而不是制表符作为分隔符。

输出：

GroupBy(var) x y
sum(a) 2 2
sum(b) 2 2
sum(c) 1 1

使用以下命令打印结果sed：

<file datamash -W transpose | 
  datamash -W --headers -s -g1 sum 2-4 |
  datamash --output-delimiter=' ' transpose | 
  sed 's/^[^(]*(\([^)]*\))/\1/'

输出：

var x y
a 2 2
b 2 2
c 1 1

您可以使用以下cut命令从输入文件中删除前九列并将它们添加回结果中paste：

paste -d ' ' <(cut -d' ' -f-9 file) <(cut -d' ' -f10- file | datamash ... )

head -n1可以使用打印并跳过附加标题行tail -n+2：

{
  head -n1 file 
  paste -d ' ' <(tail -n+2 file | cut -d' ' -f-9) <(tail -n+2 file | cut -d' ' -f10- | datamash ... )
}

Answer

使用 GNU datamash：

<file datamash -W transpose | 
  datamash -W --headers -s -g1 sum 2-4 |
  datamash --output-delimiter=' ' transpose

使用空格作为分隔符转置文件 ( -W)
对第一个字段 ( -g1) 进行分组，在分组 ( -s) 之前进行排序，并对字段 2-4 上的值求和。第一个输入行被视为列标题并打印在输出中 ( --headers)
转置结果并使用空格字符而不是制表符作为分隔符。

输出：

GroupBy(var) x y
sum(a) 2 2
sum(b) 2 2
sum(c) 1 1

使用以下命令打印结果sed：

<file datamash -W transpose | 
  datamash -W --headers -s -g1 sum 2-4 |
  datamash --output-delimiter=' ' transpose | 
  sed 's/^[^(]*(\([^)]*\))/\1/'

输出：

var x y
a 2 2
b 2 2
c 1 1

您可以使用以下cut命令从输入文件中删除前九列并将它们添加回结果中paste：

paste -d ' ' <(cut -d' ' -f-9 file) <(cut -d' ' -f10- file | datamash ... )

head -n1可以使用打印并跳过附加标题行tail -n+2：

{
  head -n1 file 
  paste -d ' ' <(tail -n+2 file | cut -d' ' -f-9) <(tail -n+2 file | cut -d' ' -f10- | datamash ... )
}

通过匹配标题将列合并到一个文件中

答案1

答案2

答案3

相关内容