在一个文件中使用 grep 单词，并使用该单词在另一个文件中进行匹配，添加匹配项后面的内容

Question

我不太明白你的问题，所以我会回答我思考你问的是。如果你有一个像这样的感兴趣的标识符文件（我假设第一个字段永远不是标识符，我还假设至少有一些 ID 存在于序列文件中，但你示例中的 ID 都不存在）：

Jan12345: ID1 ID2 ... IDN1
Jan67899: ID11 ID12 ... IDN2

像这样的 Fasta 文件：

>ID1
ABCDEFG
>ID2
HIJKLMN
>IDN1
OPQRSTU
>ID11
WXYZABC
>ID12
DEFGHIJ
>IDN2
KLMNOPQ

你想要一个像这样的输出文件：

Jan12345 ID1 ABCDEFG ID2 HIJKLMN ... IDN OPQRSTU

你可以做这样的事情：

将此脚本另存为FastaToTbl并使其可执行（chmod 744 FastaToTbl）：

#! /bin/sh
gawk '{
        if (substr($1,1,1)==">")
       if (NR>1)
             printf "\n%s\t", substr($0,2,length($0)-1)
      else 
         printf "%s\t", substr($0,2,length($0)-1)
       else 
          printf "%s", $0
}END{printf "\n"}'  "$@"

这会将 FASTA 转换为表，（ID<TAB>SEQUENCE）。

与此脚本结合使用FastaToTbl，从中提取 IDfile1和序列file2：

FastaToTbl file2 | 
  perl -ne 'chomp;@a=split(/\t/); $k{$a[0]}=$a[1]; ## Collect the sequences
                                                   ## $k{ID}=SEQUENCE
      END{open(A,"file1");   ## Open ID file
         while(<A>){         ## and process it line by line
           @a=split(/\s+/);  ## Gather the IDs in array @a
           print shift(@a);  ## Print the first element (Jan123:)
           print " $_ $k{$_}" for @a; ## Print each ID and its seq
           print "\n";
 }}' 
Jan12345:ID1 ABCDEFG ID2 HIJKLMN IDN1 OPQRSTU
Jan67899:ID11 WXYZABC ID12 DEFGHIJ IDN2 KLMNOPQ

Answer 1