如何根据另一个文件的多个条件选择文件行?

如何根据另一个文件的多个条件选择文件行?

我有 2 个遗传数据集。我根据 file2 中的列过滤 file1。但是,我还需要考虑 file2 中的第二列,但我不知道如何执行此操作。

文件 1 行提取的条件是仅选择染色体位置比文件 2 中位于同一染色体的行中的任何给定染色体位置大 5000 以上或小 5000 以下的行。我在下面的代码中运行了其中的一部分,但这并不能说明仅过滤同一染色体编号内的行。

例如我的数据如下所示:

文件一:

Variant   Chromsome   Chromosome Position  
Variant1      2             14000     
Variant2      1             9000              
Variant3      8             37000          
Variant4      1             21000     

文件2:

Variant  Chromosome  Chromosome Position  
Variant1     1                 10000                   
Variant2     1                 20000                   
Variant3     8                 30000                   

预期输出(与同一染色体上文件 2 的任何行相比,位置距离大于 +/-5000 的变体):

Variant   Chromosome Position     Chromosome
Variant1    14000                  2
Variant3    37000                  8

#Variant1 at 14000, whilst within 5000 + of Variant1 at 10000 in file2 is on a different chromosome and therefore not compared and is kept.
#Variant3 is on the same chromosome as Variant4 in file1 but larger than 5000+ distance and is kept.

我使用上一个问题的答案进行编码(如何根据另一个文件的条件从一个文件中选择行?)询问如何在不考虑染色体的情况下进行过滤:

awk '
NR == FNR       {RGMIN[++IX] = $2 - 5000                        
                 RGMAX[IX]   = $2 + 5000                        
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         

                 for (i=2; i<=IX; i++)  PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])                                                                                          
                }
PR                                                             
' file2 file1 > newfile.txt

我一直在尝试更好地理解语法,以便在附加行中添加一个 if 语句,用于“如果 file1 的行与 file2 的染色体编号匹配,则仅在该染色体编号内执行 5000 +/- 过滤”,但我'如果有其他方法的话,我不知道如何将其合并到我所拥有的内容中。

编辑:

现在尝试添加 CHROM:

awk '
NR == FNR       {RGMIN[++IX] = $2 - 500000                        
                 RGMAX[IX]   = $2 + 500000  
                 CHROM[IX] = $2              
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         
                 for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($2 < RGMIN[i] || $2 > RGMAX[i])                                              
                }
PR          
' file2 file1 > newfile.txt               

答案1

正如评论中所提议的:

awk '
NR == FNR       {RGMIN[++IX] = $3 - 5000                        
                 RGMAX[IX]   = $3 + 5000  
                 CHROM[IX]   = $2              
                 next
                }
FNR == 1        {print                                         
                 next
                }
                {PR = 1                                         
                 for (i=2; i<=IX; i++) if ($2 == CHROM[i]) PR = PR * ($3 < RGMIN[i] || $3 > RGMAX[i])                                              
                }
PR          
' file2 file1 
Variant   Chromsome   Chromosome Position  
Variant1      2             14000     
Variant3      8             37000          

答案2

根据 file2 相对于 file1 的重量,您也可以映射 file2,然后测试 file1 中的位置是否尚未映射......

 awk 'FNR==NR{for (i=$3-5000; i<=$3+5000; i++){v[$2"."i]=1}}
      FNR!=NR{if (! v[$2"."$3]) print $0}
      ' file2 file1 

对于这个数据集,比 @RudiC 慢,但如果 file2 中有大量多个重叠范围,它可能会变得更值得。

相关内容