查找不同文件的两列之间的匹配并将其打印到不同的列

查找不同文件的两列之间的匹配并将其打印到不同的列

我试图弄清楚如何查看 的第 2 列file1和 的第 6 列之间是否存在任何匹配file2。如果是这样,我希望将匹配项与 的第 14 列中的相应字符串一起打印file2,并保存到不同的文件file3.

文件1:

  1 ENSCAFT00000037911
  1 ENSCAFT00000046425
  1 ENSC
  1 ENSCAFT00000009252
  1 ENSCAFT00000049028
  1 ENSC
  2 AFT00000000014
  2 ENSCAFT00000042968
  2 ENSCAFT000000

文件2:

   1 13336837 13358107 -1 SERPINB7 AFT00000000014 ENSCAFG00000023436 34.51 13.70 16.30 7.80 18.85 10.21 0.50 
   1 14028702 14130819 -1 PHLPP1 ENSCAFT00000000123 ENSCAFG00000000070 1531.81 1090.63 518.08 559.90 581.70 1126.21 0.41 
   1 14702158 14789303 1 PIGN ENSCAFT00000000137 ENSCAFG00000000083 979.07 882.88 296.70 272.97 369.74 877.13 0.31 
   1 17154193 17210961 -1 ZNF532 ENSCAFT00000049028 ENSCAFG00000000103 31.62 58.98 13.83 23.80 27.50 15.38 0.42 
   1 17154246 17210961 -1 NA ENSCAFT00000000164 ENSCAFG00000000103 31.62 58.98 13.83 23.80 27.50 15.38 0.42 
   1 17491358 17563171 1 ALPK2 ENSCAFT00000000169 ENSCAFG00000000107 12.18 10.55 39.99 31.41 210.85 15.82 3.14 
   1 18214832 18277601 1 ATP8B1 ENSCAFT00000000203 ENSCAFG00000000123 751.98 827.35 373.91 394.89 571.98 711.16 0.49 

期望的输出:

    ENSCAFT00000049028 0.42
    AFT00000000014 0.50 

顺序并不重要。

答案1

简单join

join -1 2 -2 6 -o 1.2,2.14 <(sort -k2 file1) <(sort -k6 file2 )
  • -1 2定义file1字段 2 是连接字段。
  • -2 6定义file2字段 6 是连接字段。
  • -o 1.2,2.14是输出格式file1字段 2 后跟file2字段 14。
  • <(sort ...)必须在连接字段对两个文件进行排序-k才能join正常工作。

或者使用awk(不需要排序的输入):

awk 'FNR==NR{a[$2]=$0} FNR!=NR&&a[$6]{print $6,$14}' file1 file2
  • FNR==NR适用于第一个文件 file1
    • a[$2]=$0a使用第二个字段$2作为索引填充数组。
  • FNR!=NR适用于第二个文件file2
  • a[$6]$6如果数组中存在第 6 个字段a
    • print $6,$14打印两个值。

相关内容