带有 FASTA 文件的直方图

带有 FASTA 文件的直方图

我是 Linux 新手。我有一个 FASTA 文件,如下所示:

>scaffold1
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATGTATTTTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTAACAAATAAAATTAATGCAATTTATTTTTTCAAATAAAAATACACGGAGAAAAATAATTTGTAAATTTT

等等。大约有 5000 多个脚手架。

我想用脚手架长度制作直方图。
我读到了 Biopython 等,但我对安装这些程序一无所知。有没有办法仅使用 Linux 命令(终端)或使用 R 来获取直方图?谢谢

答案1

使用合适的直方图图形工具更为明智。但如果你只是想用某种长度表示替换脚手架,你可以尝试这个 awk 命令:

$ awk '{if (NR%2){printf $0" "}else{print}}' file1.txt | awk '{gsub(".", "-", $2); print( $1, $2)}'
>scaffold1 -----------------------------------------------------------
>scaffold2 --------------------------------------------
>scaffold3 ---------------------------------------
>scaffold4 ------------------------------------------------------------------

其中测试文件是:

$ cat file1.txt
>scaffold1
TTATTATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT
>scaffold2
AAGGATAAGTGTAGCTGAGGAATTAAAAAATTTATGTAAATTTT
>scaffold3
AAGACATAATATTTTGGAGGAATTAAAAAATTTAAGATG
>scaffold4
TTATCCCTTAATATACATGTATTTTATTTATAACATAAATAAACATCCCAAGGAAAAGCAGTAGCT

相关内容