提取比赛以及下一场比赛之前的所有内容，为每场比赛执行此操作

Question 1

您可以在 awk 中轻松完成此操作：

awk '{ if(/^>/){name=$0; sub(/^>/,"", name);}{print >> name".fa"}}' file.fa

这将迭代输入文件的所有行，如果第一个字符是 a >，它将将该行保存为name.然后，它将>从的内容中删除name，因为您不希望在文件名中出现该内容。最后，每一行都附加到一个名为name.fawhere的文件中name，无论当前序列的名称是什么。

如果您只想打印那些超过 N 行的序列，您可以使用：

awk -v min=4 '{ 
               if(/^>/){ 
                    if(num >= min){
                        print seq >> name".fa"
                    } 
                    name=$0; 
                    sub(/^>/,"", name); 
                    seq=$0; 
                    num=0
                }
                else{
                    seq = seq"\n"$0; 
                    num++
                }
               }
               END{
                 if(num >= min){
                    print seq >> name".fa"
                 }
               }' file.fa

作为基本规则，不要使用 shell 循环进行文本处理。它们速度慢、笨重并且容易出错。

Answer

您可以在 awk 中轻松完成此操作：

awk '{ if(/^>/){name=$0; sub(/^>/,"", name);}{print >> name".fa"}}' file.fa

这将迭代输入文件的所有行，如果第一个字符是 a >，它将将该行保存为name.然后，它将>从的内容中删除name，因为您不希望在文件名中出现该内容。最后，每一行都附加到一个名为name.fawhere的文件中name，无论当前序列的名称是什么。

如果您只想打印那些超过 N 行的序列，您可以使用：

awk -v min=4 '{ 
               if(/^>/){ 
                    if(num >= min){
                        print seq >> name".fa"
                    } 
                    name=$0; 
                    sub(/^>/,"", name); 
                    seq=$0; 
                    num=0
                }
                else{
                    seq = seq"\n"$0; 
                    num++
                }
               }
               END{
                 if(num >= min){
                    print seq >> name".fa"
                 }
               }' file.fa

作为基本规则，不要使用 shell 循环进行文本处理。它们速度慢、笨重并且容易出错。

Question 2

尽管（正如您在评论中所建议的那样）可能有更适合您的应用程序的生物信息学工具，但可以使用以下方法来完成csplit：

csplit -sz file '/^>/' '{*}'

给出

$ head xx*
==> xx00 <==
>Number_one
[some thousands lines]

==> xx01 <==
>Number_two
[some other thousands lines, less than the latter]

==> xx02 <==
>Number_three
[Some other hundreds lines]

有关输出文件名的编号和格式的选项，请参阅手册页 ( man csplit)

Answer

尽管（正如您在评论中所建议的那样）可能有更适合您的应用程序的生物信息学工具，但可以使用以下方法来完成csplit：

csplit -sz file '/^>/' '{*}'

给出

$ head xx*
==> xx00 <==
>Number_one
[some thousands lines]

==> xx01 <==
>Number_two
[some other thousands lines, less than the latter]

==> xx02 <==
>Number_three
[Some other hundreds lines]

有关输出文件名的编号和格式的选项，请参阅手册页 ( man csplit)

提取比赛以及下一场比赛之前的所有内容，为每场比赛执行此操作

答案1

答案2

相关内容