使用不同列中的不同信息提取行

Question 1

仅使用awk和处理输入文件一次：

awk 'min[$3, $5]!=""{ if(min[$3, $5]>$6){ line[$3, $5]=$0; min[$3, $5]=$6}; next }
                    { min[$3, $5]=$6; line[$3, $5]=$0 }
END{ for(x in line) print line[x] }' infile

到“保持线具有相同的最小值”^在第6列中：

awk 'min[$3, $5]!=""{ if(min[$3, $5] >$6){ line[$3, $5]=$0; min[$3, $5]=$6 };
                      if(min[$3, $5]==$6){ line[$3, $5]=line[$3, $5] ORS $0 }; next
                    }
                    { min[$3, $5]=$6; line[$3, $5]=$0 }
END{ for(x in line) print line[x] }' infile

Answer

仅使用awk和处理输入文件一次：

awk 'min[$3, $5]!=""{ if(min[$3, $5]>$6){ line[$3, $5]=$0; min[$3, $5]=$6}; next }
                    { min[$3, $5]=$6; line[$3, $5]=$0 }
END{ for(x in line) print line[x] }' infile

到“保持线具有相同的最小值”^在第6列中：

awk 'min[$3, $5]!=""{ if(min[$3, $5] >$6){ line[$3, $5]=$0; min[$3, $5]=$6 };
                      if(min[$3, $5]==$6){ line[$3, $5]=line[$3, $5] ORS $0 }; next
                    }
                    { min[$3, $5]=$6; line[$3, $5]=$0 }
END{ for(x in line) print line[x] }' infile

Question 2

和awk

FNR==NR && !seen[$3,$5]++ {val[$3,$5]=$6}
FNR==NR && seen[$3,$5] {if ($6<val[$3,$5]) {val[$3,$5]=$6} }
 
NR!=FNR && val[$3,$5]==$6

运行与

awk -f script.awk input input

它有什么作用？

创建一个伪多维数组使用第 3 列和第 5 列作为索引并且

如果没有这样的元素，则获取第6列的值
如果存在这样的元素，则将值与第 6 列进行比较并选择较小的元素
然后重新运行该文件并选择数组索引与第 3 列和第 5 列匹配且第 6 列的值适合数组元素的每一行。

运行该文件两次，但 RAM 占用量非常低。排序如输入文件中所示。

Answer

和awk

FNR==NR && !seen[$3,$5]++ {val[$3,$5]=$6}
FNR==NR && seen[$3,$5] {if ($6<val[$3,$5]) {val[$3,$5]=$6} }
 
NR!=FNR && val[$3,$5]==$6

运行与

awk -f script.awk input input

它有什么作用？

创建一个伪多维数组使用第 3 列和第 5 列作为索引并且

如果没有这样的元素，则获取第6列的值
如果存在这样的元素，则将值与第 6 列进行比较并选择较小的元素
然后重新运行该文件并选择数组索引与第 3 列和第 5 列匹配且第 6 列的值适合数组元素的每一行。

运行该文件两次，但 RAM 占用量非常低。排序如输入文件中所示。

Question 3

sort -t$'\t' -k3,3 -k5,5 -k6n,6 file | awk -F\\t '!seen[$3,$5]++'

主要sort用于字段 6 的数字排序 - 以下也可以：

sort -t$'\t' -k6n,6 file | awk -F\\t '!seen[$3,$5]++'

但是，输出不会按第 3 列和第 5 列进行分组。awk用于打印包含唯一的第 3/5 列对的第一行。可以在不支持C 字符串的 shell"$(printf '\t')"中使用。$'\t'$'...'

awk 处理文件两次以保持与输入相同的顺序并保持具有相同最小值的行：

awk '
FNR==NR {if (min[$3,$5]=="" || $6<min[$3,$5]) min[$3,$5]=$6; next} $6==min[$3,$5]
' file file

Answer

sort -t$'\t' -k3,3 -k5,5 -k6n,6 file | awk -F\\t '!seen[$3,$5]++'

主要sort用于字段 6 的数字排序 - 以下也可以：

sort -t$'\t' -k6n,6 file | awk -F\\t '!seen[$3,$5]++'

但是，输出不会按第 3 列和第 5 列进行分组。awk用于打印包含唯一的第 3/5 列对的第一行。可以在不支持C 字符串的 shell"$(printf '\t')"中使用。$'\t'$'...'

awk 处理文件两次以保持与输入相同的顺序并保持具有相同最小值的行：

awk '
FNR==NR {if (min[$3,$5]=="" || $6<min[$3,$5]) min[$3,$5]=$6; next} $6==min[$3,$5]
' file file

Question 4

输出的顺序与建议的输出不同，因此如果顺序不重要，则可以这样做：

sort -s -k3,3 -k5,5 -k6,6n < in | perl -ane 'print unless $seen{$F[2]}{$F[4]}++' > out

如果要维持原来的顺序，可以运行

nl < in | sort -s -k4,4 -k6,6 -k7,7n | perl -ane 'print unless $seen{$F[3]}{$F[5]}++' | sort -k1,1n | cut -f2- > out

然而，即使你的样本输出是不是保留原始顺序（grep 4ch[9b]_A_001在您的输入和输出样本中，您将看到）。

Answer

输出的顺序与建议的输出不同，因此如果顺序不重要，则可以这样做：

sort -s -k3,3 -k5,5 -k6,6n < in | perl -ane 'print unless $seen{$F[2]}{$F[4]}++' > out

如果要维持原来的顺序，可以运行

nl < in | sort -s -k4,4 -k6,6 -k7,7n | perl -ane 'print unless $seen{$F[3]}{$F[5]}++' | sort -k1,1n | cut -f2- > out

然而，即使你的样本输出是不是保留原始顺序（grep 4ch[9b]_A_001在您的输入和输出样本中，您将看到）。

使用不同列中的不同信息提取行

答案1

答案2

答案3

答案4

相关内容