我正在 shell 中寻找一些东西,它可以帮助我首先识别模式,然后计算它们出现的次数。重要的是,如果我能够获得这些序列的开始和结束位置,因为标题将会很棒!
熟悉问题。
首先,我尝试使用RepeatMasker
HSAT1 坐标来掩盖基因组,但效果不佳。所以我获取了包含所有 HSAT1 区域的 FASTA 文件
现在举例来说,
acataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgtacataaaatatcaaagtacacaaaatatatattatatactgt
所以这里重复拉伸10次。
我希望首先检测它是否作为其变量拉伸,然后用位置对其进行计数。
结果:
Chr17 acataaaatatcaaagtacacaaaatatatattatatactgt 10
谢谢。