比较具有不同行的 2 个文件（如果它落在数字范围内）

Question

最简单的方法似乎是对它们进行排序，然后解析排序后的列表

cat file1 file2 | 
     sort -k1,1n -k2,2n | 
     awk 'NF==4{c=$1; lo=$2; hi=$3; cm=$4} 
          NF==2 && c==$1 && lo<=$2 && hi>=$3{printf "%s\t%s\t%s\n", $1, $2, cm}'

and生成一个按数字和顺序排列cat的sort组合列表chrpos

chr  pos
chr  start    End    CM
1     0       2000   p3.5
1     1500
1     2400    8000   p5.3
2     9500    20000  q2.4
2     10500
3     0       3000   p7.6
4     60800  89000   p77.1 
4     70000
8     12000    36000  q4.5
8     13000
8     55000    78000  p22.4

并且只要awk通过文件一次选取、、的新值，并且chr每当lo您击中一行并仅根据您的条件测试这些行时hicmNF==4NF==2

1       1500    p3.5
2       10500   q2.4
4       70000   p77.1
8       13000   q4.5

以及 650,000 行测试文件

real    0m1.511s
user    0m1.249s
sys     0m0.477s

Answer 1

最简单的方法似乎是对它们进行排序，然后解析排序后的列表

cat file1 file2 | 
     sort -k1,1n -k2,2n | 
     awk 'NF==4{c=$1; lo=$2; hi=$3; cm=$4} 
          NF==2 && c==$1 && lo<=$2 && hi>=$3{printf "%s\t%s\t%s\n", $1, $2, cm}'

and生成一个按数字和顺序排列cat的sort组合列表chrpos

chr  pos
chr  start    End    CM
1     0       2000   p3.5
1     1500
1     2400    8000   p5.3
2     9500    20000  q2.4
2     10500
3     0       3000   p7.6
4     60800  89000   p77.1 
4     70000
8     12000    36000  q4.5
8     13000
8     55000    78000  p22.4

并且只要awk通过文件一次选取、、的新值，并且chr每当lo您击中一行并仅根据您的条件测试这些行时hicmNF==4NF==2

1       1500    p3.5
2       10500   q2.4
4       70000   p77.1
8       13000   q4.5

以及 650,000 行测试文件

real    0m1.511s
user    0m1.249s
sys     0m0.477s

比较具有不同行的 2 个文件（如果它落在数字范围内）

答案1

相关内容