我有一个数据看起来像这样,对于每个 SNP,它应该用不同的 beta 重复 5 次。但对于SNP rs11704961,它只重复两次,所以我想删除重复次数少于5次的SNP行。我尝试使用sort -k 1 | uniq -c
,但它考虑整行来检查重复项,而不是第一列。
SNP R K BETA
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073
rs11704961 2 1 0.2245
rs11704961 2 2 0.009203
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195
答案1
使用awk
:
$ cat snp.awk
NR == 1 { # header line
print $0
}
NR > 1 { # data line
snp = $1;
retain[snp][NR] = $0;
counts[snp]++;
}
END {
for (snp in retain) {
if (counts[snp] == 5) {
for (i in retain[snp]) {
print retain[snp][i];
}
}
}
}
$ awk -f snp.awk snp.dat
SNP R K BETA
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073
但请注意,awk
数组不保留插入顺序,因此在这种情况下,您的输出与输入中的顺序不同。
答案2
使用磨坊主它awk
类似于 - 但本质上处理标题行:
$ cat snp.mlr
@records[$SNP][NR] = $*; # retain records
@counts[$SNP] += 1;
end { # conditionally emit
for (snp in @records) {
if (@counts[snp] == 5) {
emit @records[snp];
}
}
}
$ mlr --csvlite --fs space put -q -f snp.mlr snp.dat
SNP R K BETA
rs767249 1 1 0.1065
rs767249 1 2 -0.007243
rs767249 1 3 0.02771
rs767249 1 4 -0.008233
rs767249 1 5 0.05073
rs1041894 3 1 0.1238
rs1041894 3 2 0.002522
rs1041894 3 3 0.01175
rs1041894 3 4 -0.01122
rs1041894 3 5 -0.009195
请注意,这使用了自最新4.5.0版本。