如何从 FASTA（仅包含它们但多段）文件中识别 HSAT1 重复序列并计算出现频率？

2024-6-12 • tag-icon

如何从 FASTA（仅包含它们但多段）文件中识别 HSAT1 重复序列并计算出现频率？

我正在 shell 中寻找一些东西，它可以帮助我首先识别模式，然后计算它们出现的次数。重要的是，如果我能够获得这些序列的开始和结束位置，因为标题将会很棒！

熟悉问题。

首先，我尝试使用RepeatMaskerHSAT1 坐标来掩盖基因组，但效果不佳。所以我获取了包含所有 HSAT1 区域的 FASTA 文件

现在举例来说，

acataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgt

所以这里重复拉伸10次。

我希望首先检测它是否作为其变量拉伸，然后用位置对其进行计数。

结果：

Chr17 acataaaatatcaaagtacacaaaatatatattatatactgt 10

谢谢。

相关内容