所以我有这个 fasta(生物学)文件,如下所示:
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCAGAACACCTGGTTTCACGACC
ATAAATAATTTACCAGTGAATCGAGGCTCAATTATAGATCCTCGGACGCGAGTTCTCGGTTGACGAGTGG
GATTCGAATTATTTTTCACCGAAAATTTTAGTCGACGAGTTCAGATAAATTTGTTCGGGATAAAATCATC
TGAGTAGGTCGGGCTTCTGAATTTCGTATTCTTGCGAGCAATGAATTTTAAATAATCATCGGACATACCA
ATTTTTGGAACAATAATGTTCCGAACATCCCGAAAATATAGGAAGAGCCCGGATAGATAAAAATAAACAC
每行最多 70 个字符长。通常,如果我想将其格式化为最大 50 个字符长,我使用:
折叠 -50 input.fasta > output.fasta # 还尝试了 -b 和 -w args
但不知怎的,这不起作用。该文件看起来与我见过的许多其他文件完全相同。现在的输出如下所示:
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCA
GAACACCTGGTTTCACGACC
ATAAATAATTTACCAGTGAATCGAGGCTCAATTATAGATCCTCGGACGCG
AGTTCTCGGTTGACGAGTGG
GATTCGAATTATTTTTCACCGAAAATTTTAGTCGACGAGTTCAGATAAAT
TTGTTCGGGATAAAATCATC
TGAGTAGGTCGGGCTTCTGAATTTCGTATTCTTGCGAGCAATGAATTTTA
AATAATCATCGGACATACCA
ATTTTTGGAACAATAATGTTCCGAACATCCCGAAAATATAGGAAGAGCCC
它剪切了悬垂的 20 个字符并将它们正确地放置在下面,但随后它没有加入下一行并按照应有的方式将其剪切到最多 50 个字符。
我返回到以前创建的 fasta 文件,折叠命令仍然正常工作。如果我复制新文件的一部分并将其粘贴到另一个文件中,问题仍然存在。
我认为可能存在我不知道的编码问题。有人可以帮忙吗?
干杯,
编辑:很好的答案,谢谢!
答案1
您的问题与文件的编码无关。该fold
实用程序非常原始,会以特定长度断开线,但不会连接线。
您可能还需要小心保留 fasta 标题行(即,不要折叠它们)。
awk -v W=50 '
/^>/ { if (seq != "") print seq; print; seq = ""; next }
{
seq = seq $1
while (length(seq) > W) {
print substr(seq, 1,W)
seq = substr(seq, 1+W)
}
}
END { if (seq != "") print seq }' file.fa
此awk
命令会将序列重新格式化为 50 个字符,同时保持标题行不变。宽度 50 可通过W
变量进行调整,并且可以设置为任何正整数。
代码中的第一个块处理标题行,并将输出前一个序列中累积的序列位(如果还有剩余要输出),然后将未修改的标题行传递到输出。
第二个块累积一行序列,如果累积的序列足够长,则可能会以适当的块形式输出累积的序列。
最后一个块 ( END
) 在到达输入末尾时输出任何剩余序列。
在包含序列的两个副本的文件上运行此命令将产生
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCA
GAACACCTGGTTTCACGACCATAAATAATTTACCAGTGAATCGAGGCTCA
ATTATAGATCCTCGGACGCGAGTTCTCGGTTGACGAGTGGGATTCGAATT
ATTTTTCACCGAAAATTTTAGTCGACGAGTTCAGATAAATTTGTTCGGGA
TAAAATCATCTGAGTAGGTCGGGCTTCTGAATTTCGTATTCTTGCGAGCA
ATGAATTTTAAATAATCATCGGACATACCAATTTTTGGAACAATAATGTT
CCGAACATCCCGAAAATATAGGAAGAGCCCGGATAGATAAAAATAAACAC
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCA
GAACACCTGGTTTCACGACCATAAATAATTTACCAGTGAATCGAGGCTCA
ATTATAGATCCTCGGACGCGAGTTCTCGGTTGACGAGTGGGATTCGAATT
ATTTTTCACCGAAAATTTTAGTCGACGAGTTCAGATAAATTTGTTCGGGA
TAAAATCATCTGAGTAGGTCGGGCTTCTGAATTTCGTATTCTTGCGAGCA
ATGAATTTTAAATAATCATCGGACATACCAATTTTTGGAACAATAATGTT
CCGAACATCCCGAAAATATAGGAAGAGCCCGGATAGATAAAAATAAACAC
更改W
为 30 给出
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATC
AAATAATTTCATTCGCGTCAGAACACCTGG
TTTCACGACCATAAATAATTTACCAGTGAA
TCGAGGCTCAATTATAGATCCTCGGACGCG
AGTTCTCGGTTGACGAGTGGGATTCGAATT
ATTTTTCACCGAAAATTTTAGTCGACGAGT
TCAGATAAATTTGTTCGGGATAAAATCATC
TGAGTAGGTCGGGCTTCTGAATTTCGTATT
CTTGCGAGCAATGAATTTTAAATAATCATC
GGACATACCAATTTTTGGAACAATAATGTT
CCGAACATCCCGAAAATATAGGAAGAGCCC
GGATAGATAAAAATAAACAC
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATC
AAATAATTTCATTCGCGTCAGAACACCTGG
TTTCACGACCATAAATAATTTACCAGTGAA
TCGAGGCTCAATTATAGATCCTCGGACGCG
AGTTCTCGGTTGACGAGTGGGATTCGAATT
ATTTTTCACCGAAAATTTTAGTCGACGAGT
TCAGATAAATTTGTTCGGGATAAAATCATC
TGAGTAGGTCGGGCTTCTGAATTTCGTATT
CTTGCGAGCAATGAATTTTAAATAATCATC
GGACATACCAATTTTTGGAACAATAATGTT
CCGAACATCCCGAAAATATAGGAAGAGCCC
GGATAGATAAAAATAAACAC
您也可能对。。。有兴趣FASTX 工具包来自CSHL。我自己从未使用过这个,但它似乎包含一个“FASTA Formatter(更改 FASTA 文件中序列行的宽度)”。这些工具的最新版本来自 2014 年(相当旧),因此您可能希望自己从源代码编译它们,而不是使用提供的预编译二进制文件之一,除非您的特定 Unix 发行版提供了软件包(检查您的软件包存储库)。
答案2
尝试这个:
<input.fasta tr -d '\n'|fold -w 50 >output.fasta
这用于tr
删除现有的行尾,然后将生成的单行格式化为多行,每行的最大长度为 50。
为了将第一行保持在当前长度,并且不将其与后续行组合,这应该可以工作(并以行尾结束输出):
awk '{if (NR==1) {print $0 gensub(/ /, " ", "g", sprintf("%*s", 50-length($0), ""))} else print $0}' input.fasta|tr -d '\n'|sed '$s/$/\n/'|fold -w 50|awk '{$1=$1};1' >output.fasta
答案3
这就是fold
工作原理。你以前从未播种过它,因为你以前没有过这么长的线。折叠分别发生在每条线上。因此,如果线的长度不是您要折叠到的尺寸的精确倍数,您将得到这种输出。例如:
$ perl -le 'for (0..2){print "A" x 12}'
AAAAAAAAAAAA
AAAAAAAAAAAA
AAAAAAAAAAAA
$ perl -le 'for (0..2){print "A" x 12}' | fold -w 6
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
AAAAAA
$ perl -le 'for (0..2){print "A" x 12}' | fold -w 7
AAAAAAA
AAAAA
AAAAAAA
AAAAA
AAAAAAA
AAAAA
现在,这实际上不是问题。这仍然是一个有效的 fasta 文件,但它不是很漂亮。作为解决方法,您可以采用FastaToTbl
和TblToFasta
脚本我之前发过帖子并做:
$ FastaToTbl input.fasta | TblToFasta
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCAGAACACCTGG
TTTCACGACCATAAATAATTTACCAGTGAATCGAGGCTCAATTATAGATCCTCGGACGCG
AGTTCTCGGTTGACGAGTGGGATTCGAATTATTTTTCACCGAAAATTTTAGTCGACGAGT
TCAGATAAATTTGTTCGGGATAAAATCATCTGAGTAGGTCGGGCTTCTGAATTTCGTATT
CTTGCGAGCAATGAATTTTAAATAATCATCGGACATACCAATTTTTGGAACAATAATGTT
CCGAACATCCCGAAAATATAGGAAGAGCCCGGATAGATAAAAATAAACAC
该TblToFasta
脚本将确保输出为标准的每行 60bp。如果你确实需要 50 个,你可以这样做(假设 GNU sed
):
$ FastaToTbl input.fasta | sed -E 's/^/>/;s/\t/\n/ ' | sed -E 's/(.{50})/\1\n/g'
>m64093_191209_130050/133911/ccs_64
TTCAGGCTGTGTTCCATTTGATTTAAAATCAAATAATTTCATTCGCGTCA
GAACACCTGGTTTCACGACCATAAATAATTTACCAGTGAATCGAGGCTCA
ATTATAGATCCTCGGACGCGAGTTCTCGGTTGACGAGTGGGATTCGAATT
ATTTTTCACCGAAAATTTTAGTCGACGAGTTCAGATAAATTTGTTCGGGA
TAAAATCATCTGAGTAGGTCGGGCTTCTGAATTTCGTATTCTTGCGAGCA
ATGAATTTTAAATAATCATCGGACATACCAATTTTTGGAACAATAATGTT
CCGAACATCCCGAAAATATAGGAAGAGCCCGGATAGATAAAAATAAACAC