解析序列文件的标头

解析序列文件的标头

我有一个多序列文件

>abc|d017961
sequence1......

>cdf|rhtdm9
sequence2......

>ijm|smthr12
sequence3......

>abc|d011wejr
sequence4......

>stg|eethwe77
sequence5......

我想编辑该文件并希望结果文件为

>abc_ABC__d017961
sequence1......

>cdf_CDF__rhtdm9
sequence2......

>ijm_IJM__smthr12
sequence3......

>abc_ABC__d011wejr
sequence4......

>stg_STG__eethwe77
sequence5......

答案1

使用 GNU sed

sed 's/>\([^|]*\)|/>\1_\U\1__/'

与以下相同perl

perl -pe's/>(.*?)\|/>$1_\U$1__/'

相关内容