删除重复行数少于 5 的行

Question 1

使用awk：

$ cat snp.awk
NR == 1 { # header line
  print $0
}
NR > 1 { # data line
  snp = $1;
  retain[snp][NR] = $0;
  counts[snp]++;
}
END {
  for (snp in retain) {
    if (counts[snp] == 5) {
      for (i in retain[snp]) {
        print retain[snp][i];
      }
    }
  }
}

$ awk -f snp.awk snp.dat
SNP R K BETA
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073

但请注意，awk数组不保留插入顺序，因此在这种情况下，您的输出与输入中的顺序不同。

Answer

使用awk：

$ cat snp.awk
NR == 1 { # header line
  print $0
}
NR > 1 { # data line
  snp = $1;
  retain[snp][NR] = $0;
  counts[snp]++;
}
END {
  for (snp in retain) {
    if (counts[snp] == 5) {
      for (i in retain[snp]) {
        print retain[snp][i];
      }
    }
  }
}

$ awk -f snp.awk snp.dat
SNP R K BETA
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073

但请注意，awk数组不保留插入顺序，因此在这种情况下，您的输出与输入中的顺序不同。

Question 2

使用磨坊主它awk类似于 - 但本质上处理标题行：

$ cat snp.mlr
@records[$SNP][NR] = $*; # retain records
@counts[$SNP] += 1;

end { # conditionally emit
  for (snp in @records) {
    if (@counts[snp] == 5) {
      emit @records[snp];
    }
  }
}

$ mlr --csvlite --fs space put -q -f snp.mlr snp.dat
SNP R K BETA
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195

请注意，这使用了自最新4.5.0版本。

Answer

使用磨坊主它awk类似于 - 但本质上处理标题行：

$ cat snp.mlr
@records[$SNP][NR] = $*; # retain records
@counts[$SNP] += 1;

end { # conditionally emit
  for (snp in @records) {
    if (@counts[snp] == 5) {
      emit @records[snp];
    }
  }
}

$ mlr --csvlite --fs space put -q -f snp.mlr snp.dat
SNP R K BETA
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195

请注意，这使用了自最新4.5.0版本。

删除重复行数少于 5 的行

答案1

答案2

相关内容