如何使用awk选择和提取匹配数据?

如何使用awk选择和提取匹配数据?

我的文件 1 仅包含一列基因列表,文件 2 包含更长的基因列表和基因统计数据。我试图找到与文件 1 中的基因相匹配的统计数据,并将其放入新文件 3 中。在特定文件 2 有 33 列中,我想要的唯一统计数据在第 29 列中,但是我目前一直在编写代码来查找文件 1 基因的每一列的信息,因为我仍然坚持这一点。

例如我的数据如下所示:

文件一:

Gene
ACE
BRCA
HER.2
NOS
P53
PTGIS

文件2:

gene_id   Gene    pval    beta    maf    ...     qval   ...
12345     ACE     0.01    300     100            0.0008
67890     UMOD.1  0.002   400     45             0.047
00008     HER.2   0.02    123     98             0.56
34587     CICP3   0.05    55      12             0.77
67859     HER     0.003   600     33             0.234

我想要的第 29 列是qval,我曾经...暗示第 29 列之前和之后有更多列,但我对 stackexchange 缺乏经验,如果有办法让我完整地提供更大的数据以获得更好的示例,请告诉我,我会的立即做。

使用这些示例数据集,输出文件 3 将如下所示:

Gene   qval
ACE    0.0008
HER.2  0.56

我尝试过代码,我认为它会给我这两个匹配基因的所有列,但它目前给我一个空的输出文件:

awk 'BEGIN{FS=OFS="\t"} {sub(/\.[0-9]+$/,"",$2)} FNR==NR{$30="";sub(/[[:space:]]+$/,"");a[$2]=$0;next} $1 in a{print a[$2],$NF}' file2.txt   file1.txt > file3.txt

我还尝试了另一种方法,更具体地获取第 29 列,该列运行但输出匹配仅给出一些匹配的基因数据,而其他应该具有匹配数据的数据则保留为“NA”:

awk '{printf("%s\t%s\n", $2, $29)}' originalfile2.txt > file2.txt

awk '{
    split($1,k,".")         
}
NR==FNR {
    a[k[1]]=$1              
    next
}
k[1] in a {                 
    print $0 "\t" a[k[1]]   
}'  file1.txt file2.txt  > file3.txt

awk '{$3=""; print $0}' file3.txt | column -t > file3.txt 
sed -e '1i\Gene \ qval' file3.txt | column -t > file3.txt

答案1

您的基因名称列表是一个 DOS 文本文件,不是吗?这意味着每个基因名称末尾都有一个额外的回车符。这意味着文件之间没有名称匹配。这意味着您的输出为空。

使用 . 将基因列表转换为 Unix 文本文件dos2unix。然后使用代码muru 在评论中给出(假设第二个文件是制表符分隔的):

awk -v OFS='\t' 'FNR == NR {a[$0]++; next}; $2 in a {print $2, $29}' file1 file2 >file3

或者,awk从每行末尾去掉回车符:

awk -v OFS='\t' '{ sub("\r$", "") } FNR == NR {a[$0]++; next}; $2 in a {print $2, $29}' file1 file2 >file3

相关内容