使用 Perl5

Question 1

如果您的序列实际上只在一行中，您可以简单地使用

$ grep -f 1.txt 2.txt

您正在使用 fasta 文件。因此，我强烈建议使用专门为此目的的现有程序，例如序列套件

$ seqkit grep -r -f 1.txt 2.txt

seqkit 的标准输出会将 60 个字符后的序列打断为新行。如果您想让它们仍然在一行中，请将结果传递给seqkit seq这样的

$ seqkit grep -r -f 1.txt 2.txt|seqkit seq -w0

Answer

如果您的序列实际上只在一行中，您可以简单地使用

$ grep -f 1.txt 2.txt

您正在使用 fasta 文件。因此，我强烈建议使用专门为此目的的现有程序，例如序列套件

$ seqkit grep -r -f 1.txt 2.txt

seqkit 的标准输出会将 60 个字符后的序列打断为新行。如果您想让它们仍然在一行中，请将结果传递给seqkit seq这样的

$ seqkit grep -r -f 1.txt 2.txt|seqkit seq -w0

Question 2

awk -F '|' 'FNR == NR { id[$1]; next } /^>/ && ($2 in id) { print; getline; print }' 1.txt 2.txt

该awk程序作为独立awk脚本，带有注释：

BEGIN {
    # Set input field separator to a pipe character.
    FS = "|"
}

FNR == NR {
    # This line comes from the first file.
    # Add the protein ID to the id array as a key,
    # then immediately continue with the next cycle.

    id[$1]
    next
}

# The rest will only ever be executed while reading the second file.

/^>/ && ($2 in id) {
    # This line is a Fasta header line (starts with >),
    # and the ID found in the second field is an index in the id array.

    print;   # output the current line (Fasta header)
    getline; # get the next line
    print;   # output that line too (Fasta sequence)
}

这假设所有蛋白质序列始终仅使用单行（即，Fasta 文件中永远不存在多行序列）。

该脚本首先读取其中包含蛋白质 ID 的文件，并记住它们。然后，它从 Fasta 文件中读取并输出与从第一个文件中读取的蛋白质 ID 相关的标头和序列。

Answer

awk -F '|' 'FNR == NR { id[$1]; next } /^>/ && ($2 in id) { print; getline; print }' 1.txt 2.txt

该awk程序作为独立awk脚本，带有注释：

BEGIN {
    # Set input field separator to a pipe character.
    FS = "|"
}

FNR == NR {
    # This line comes from the first file.
    # Add the protein ID to the id array as a key,
    # then immediately continue with the next cycle.

    id[$1]
    next
}

# The rest will only ever be executed while reading the second file.

/^>/ && ($2 in id) {
    # This line is a Fasta header line (starts with >),
    # and the ID found in the second field is an index in the id array.

    print;   # output the current line (Fasta header)
    getline; # get the next line
    print;   # output that line too (Fasta sequence)
}

这假设所有蛋白质序列始终仅使用单行（即，Fasta 文件中永远不存在多行序列）。

该脚本首先读取其中包含蛋白质 ID 的文件，并记住它们。然后，它从 Fasta 文件中读取并输出与从第一个文件中读取的蛋白质 ID 相关的标头和序列。

Question 3

尝试这个，

# grep -A1 -F -f  1.txt 2.txt | grep -v '\-\-'


>sp|P13674|P4HA1_HUMAN Prolyl 4-hydroxylase subunit alpha-1 OS=Homo sapiens OX=9606 GN=P4HA1 PE=1 SV=2
VECCPNCRGTGMQIRIHQIGPGMVQQIQSVCMECQGHGERISPKDRCKSCNGRKIVREKKILEVHIDKGMKDGQKITFHGEGDQEPGLEPGDIIIVLDQKDHAVFTRRGEDLFMCMDIQLVEALCGFQKPISTLDNRTIVITSHPGQIVKHGDIKCVLNEGMPIYRRPYEKGRLIIEFKVNFPENGFLSPDKLSLLEKLLPERKEVEE
>sp|Q7Z4N8|P4HA3_HUMAN Prolyl 4-hydroxylase subunit alpha-3 OS=Homo sapiens OX=9606 GN=P4HA3 PE=1 SV=1
MTEQMTLRGTLKGHNGWVTQIATTPQFPDMILSASRDKTIIMWKLTRDETNYGIPQRALRGHSHFVSDVVISSDGQFALSGSWDGTLRLWDLTTGTTTRRFVGHTKDVLSVAFSSDNRQIVSGSRDKTIKLWNTLGVCKYTVQDESHSEWVSCVRFSPNSSNPIIVSCGWDKLVKVWNLANCKLK
>sp|Q9UHX1|PUF60_HUMAN Poly(U)-binding-splicing factor PUF60 OS=Homo sapiens OX=9606 GN=PUF60 PE=1 SV=1
MGKDYYQTLGLARGASDEEIKRAYRRQALRYHPDKNKEPGAEEKFKEIAEAYDVLSDPRKREIFDRYGEEGLKGSGPSGGSGGGANGTSFSYTFHGDPHAMFAEFFGGRNPFDTFFGQRNGEEGMDIDDPFSGFPMGMGGFTNVNFGRSRSAQEPARKKQDPPVTHDLRVSLEEIYSGCTKKMKISHK
>sp|O14683|P5I11_HUMAN Tumor protein p53-inducible protein 11 OS=Homo sapiens OX=9606 GN=TP53I11 PE=1 SV=2
MIHNYMEHLERTKLHQLSGSDQLESTAHSRIRKERPISLGIFPLPAGDGLLTPDAQKGGETPGSEQWKFQELSQPRSHTSLKVSNSPEPQKAVEQEDELSDVSQGGSKATTPASTANSDVATIPTDTPLKEENEGFVKVTDAPNKSEISKHIEVQVAQETRNVSTGSAENEEKSEVQAIIESTPELDMDKDLSGYKGSSTPTKGIENKAFDRNTESLFEELSSAGSGLIGDVDEGADLLGMGREVENLILENTQLLETKNALNIVKNDLIAKVDELTCEKDVLQGELEAVKQAKLKLEEKNRELEEELRKARAEAEDARQKAKDDDDSDIPTAQRKRFTRVEMARVLMERNQYKERLMELQEAVRWTEMIRASRENPAMQEKKRSSIWQFFSRLFSSSSNTTKKPEPPVNLKYNAPTSHVTPSVK

-F将 PATTERN 解释为固定字符串列表
-f从 FILE 中获取模式，每行一个。

Answer

尝试这个，

# grep -A1 -F -f  1.txt 2.txt | grep -v '\-\-'


>sp|P13674|P4HA1_HUMAN Prolyl 4-hydroxylase subunit alpha-1 OS=Homo sapiens OX=9606 GN=P4HA1 PE=1 SV=2
VECCPNCRGTGMQIRIHQIGPGMVQQIQSVCMECQGHGERISPKDRCKSCNGRKIVREKKILEVHIDKGMKDGQKITFHGEGDQEPGLEPGDIIIVLDQKDHAVFTRRGEDLFMCMDIQLVEALCGFQKPISTLDNRTIVITSHPGQIVKHGDIKCVLNEGMPIYRRPYEKGRLIIEFKVNFPENGFLSPDKLSLLEKLLPERKEVEE
>sp|Q7Z4N8|P4HA3_HUMAN Prolyl 4-hydroxylase subunit alpha-3 OS=Homo sapiens OX=9606 GN=P4HA3 PE=1 SV=1
MTEQMTLRGTLKGHNGWVTQIATTPQFPDMILSASRDKTIIMWKLTRDETNYGIPQRALRGHSHFVSDVVISSDGQFALSGSWDGTLRLWDLTTGTTTRRFVGHTKDVLSVAFSSDNRQIVSGSRDKTIKLWNTLGVCKYTVQDESHSEWVSCVRFSPNSSNPIIVSCGWDKLVKVWNLANCKLK
>sp|Q9UHX1|PUF60_HUMAN Poly(U)-binding-splicing factor PUF60 OS=Homo sapiens OX=9606 GN=PUF60 PE=1 SV=1
MGKDYYQTLGLARGASDEEIKRAYRRQALRYHPDKNKEPGAEEKFKEIAEAYDVLSDPRKREIFDRYGEEGLKGSGPSGGSGGGANGTSFSYTFHGDPHAMFAEFFGGRNPFDTFFGQRNGEEGMDIDDPFSGFPMGMGGFTNVNFGRSRSAQEPARKKQDPPVTHDLRVSLEEIYSGCTKKMKISHK
>sp|O14683|P5I11_HUMAN Tumor protein p53-inducible protein 11 OS=Homo sapiens OX=9606 GN=TP53I11 PE=1 SV=2
MIHNYMEHLERTKLHQLSGSDQLESTAHSRIRKERPISLGIFPLPAGDGLLTPDAQKGGETPGSEQWKFQELSQPRSHTSLKVSNSPEPQKAVEQEDELSDVSQGGSKATTPASTANSDVATIPTDTPLKEENEGFVKVTDAPNKSEISKHIEVQVAQETRNVSTGSAENEEKSEVQAIIESTPELDMDKDLSGYKGSSTPTKGIENKAFDRNTESLFEELSSAGSGLIGDVDEGADLLGMGREVENLILENTQLLETKNALNIVKNDLIAKVDELTCEKDVLQGELEAVKQAKLKLEEKNRELEEELRKARAEAEDARQKAKDDDDSDIPTAQRKRFTRVEMARVLMERNQYKERLMELQEAVRWTEMIRASRENPAMQEKKRSSIWQFFSRLFSSSSNTTKKPEPPVNLKYNAPTSHVTPSVK

-F将 PATTERN 解释为固定字符串列表
-f从 FILE 中获取模式，每行一个。

Question 4

使用 Perl5

这将处理多行序列。

`process.pl`

获取 STDIN 上的键和 args 中的数据文件。

use v5.10;
my %keys;
while (<STDIN>) {
  chomp;
  $keys{$_} = undef;
}
while ( <<>> ) {                  # read from args
  state $s = 0;                   # State; $s==1 for print
  if (/^>/) {                     # In header
    my $id = [split '\|',3]->[1]; #   get id
    $s = exists $keys{$id};       #   check for id in keys, set $s
  }
  print if $s;                    # check $s and print
}

祈求

cat keys.txt | perl process.pl data.txt

Answer

使用 Perl5

这将处理多行序列。

`process.pl`

获取 STDIN 上的键和 args 中的数据文件。

use v5.10;
my %keys;
while (<STDIN>) {
  chomp;
  $keys{$_} = undef;
}
while ( <<>> ) {                  # read from args
  state $s = 0;                   # State; $s==1 for print
  if (/^>/) {                     # In header
    my $id = [split '\|',3]->[1]; #   get id
    $s = exists $keys{$id};       #   check for id in keys, set $s
  }
  print if $s;                    # check $s and print
}

祈求

cat keys.txt | perl process.pl data.txt

使用 Perl5

答案1

答案2

答案3

答案4

使用 Perl5

`process.pl`

祈求

相关内容