删除重复行

Question 1

您可以尝试：

awk '{key = $4 < $7 ? $4 SUBSEP $7 : $7 SUBSEP $4} !seen[key]++' file

它存储删除重复记录所需的最少内容。

!seen[key]++是一个“著名”的 awk 习惯用法，仅在第一次看到“key”时才打印记录。

Answer

您可以尝试：

awk '{key = $4 < $7 ? $4 SUBSEP $7 : $7 SUBSEP $4} !seen[key]++' file

它存储删除重复记录所需的最少内容。

!seen[key]++是一个“著名”的 awk 习惯用法，仅在第一次看到“key”时才打印记录。

Question 2

您可以根据第一列中的值对列 2-3-4 和 5-6-7 的三元组进行排序：

perl -lane '@F[1,2,3,4,5,6] = @F[4,5,6,1,2,3] if $F[1] > $F[4]; print "@F"'

然后您可以运行sort -u以删除重复项（但您需要对列名称进行特殊处理）。

Answer

您可以根据第一列中的值对列 2-3-4 和 5-6-7 的三元组进行排序：

perl -lane '@F[1,2,3,4,5,6] = @F[4,5,6,1,2,3] if $F[1] > $F[4]; print "@F"'

然后您可以运行sort -u以删除重复项（但您需要对列名称进行特殊处理）。

Question 3

确保每行：

通过 gnu sed，您的数据位于“data”文件中；

sed -nE ':s G;/(\w+\s)(\w+\s)(\w+\s)(\S+\s)(\w+\s)(\w+\s)(\S+\s)(\w+)\n(.+\n)*\1\w+\s\6\7\w+\s\3\4\8/b; h;P' data

Answer

确保每行：

通过 gnu sed，您的数据位于“data”文件中；

sed -nE ':s G;/(\w+\s)(\w+\s)(\w+\s)(\S+\s)(\w+\s)(\w+\s)(\S+\s)(\w+)\n(.+\n)*\1\w+\s\6\7\w+\s\3\4\8/b; h;P' data

相关内容