如何从 FASTA(仅包含它们但多段)文件中识别 HSAT1 重复序列并计算出现频率?

如何从 FASTA(仅包含它们但多段)文件中识别 HSAT1 重复序列并计算出现频率?

我正在 shell 中寻找一些东西,它可以帮助我首先识别模式,然后计算它们出现的次数。重要的是,如果我能够获得这些序列的开始和结束位置,因为标题将会很棒!

熟悉问题。

首先,我尝试使用RepeatMaskerHSAT1 坐标来掩盖基因组,但效果不佳。所以我获取了包含所有 HSAT1 区域的 FASTA 文件

现在举例来说,

acataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgt

所以这里重复拉伸10次。

我希望首先检测它是否作为其变量拉伸,然后用位置对其进行计数。

结果:

Chr17 acataaaatatcaaagtacacaaaatatatattatatactgt 10

谢谢。

相关内容