删除非常大的文件中的重复项()

Question 1

这会将“0”列视为空列，但给出的想法更简单：

awk 'A[$c2] + B[$c3] + C[$c4]==0; 
    c2{A[$c2]++; next} c3{B[$c3]++;next} c4 {C[$c4]++}
' c2=2 c3=3 c4=4 input

（将 c2、c3 和 c4 设置为您关心的实际列号）

要将其扩展到您的案例，您应该能够使用：

awk 'A[$c2] + B[$c3] + C[$c4]==0;
    match($c2,"[^ ]"){A[$c2]++; next}
    match($c3,"[^ ]"){B[$c3]++;next}
    match($c4,"[^ ]"){C[$c4]++}
' FS=\\t c2=2 c3=3 c4=4 input

Answer

这会将“0”列视为空列，但给出的想法更简单：

awk 'A[$c2] + B[$c3] + C[$c4]==0; 
    c2{A[$c2]++; next} c3{B[$c3]++;next} c4 {C[$c4]++}
' c2=2 c3=3 c4=4 input

（将 c2、c3 和 c4 设置为您关心的实际列号）

要将其扩展到您的案例，您应该能够使用：

awk 'A[$c2] + B[$c3] + C[$c4]==0;
    match($c2,"[^ ]"){A[$c2]++; next}
    match($c3,"[^ ]"){B[$c3]++;next}
    match($c4,"[^ ]"){C[$c4]++}
' FS=\\t c2=2 c3=3 c4=4 input

Question 2

这个怎么样（保存到文件并运行）

#!/usr/bin/gawk -f
BEGIN {
    FS="\t"
    OFS="\t"
}

FNR==1 {
    next
}

($2 ~ /.+/ && a[$2]++) {
    next
}
($3 ~ /.+/ && a[$3]++) {
    next
}
($4 ~ /.+/ && a[$4]++) {
    next
}

{
    print $0
}

Answer

这个怎么样（保存到文件并运行）

#!/usr/bin/gawk -f
BEGIN {
    FS="\t"
    OFS="\t"
}

FNR==1 {
    next
}

($2 ~ /.+/ && a[$2]++) {
    next
}
($3 ~ /.+/ && a[$3]++) {
    next
}
($4 ~ /.+/ && a[$4]++) {
    next
}

{
    print $0
}

删除非常大的文件中的重复项()

答案1

答案2

相关内容