查找并删除重复记录

查找并删除重复记录

我想找到重复的记录,其中相同的字符重复例如,我想查找的模式是“AA”或“AAAAA”我尝试使用grep命令来查找它。但效果不佳这是我尝试过的示例,ATCTAGCGATCGATAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAG TATCTATCTATCTATCTCATACTTCGCATCGCTAGCTCGACTGCATAGGACTAGCATAAAAAGCATCAGCTACCGCCTCAGCATCGACTACGATACG TAGTCGATCGACAGCTACGCATGCATCCGACT ACGATCGACTAGCTAGCGCTAGACTACGTACCGATAAGCACTACGTCAGCCTAGACTCACGACT GATCGATCGATCGACTACGCAGCTACGAGATCGATCGATCGATCGTAGCTAGCTCATACTACACACGCATATACGTGTCGATgctAGTAACTACAT ACGCTAGCTAGCTACGATCAATCGAGCTATCGATCAGCTACGATCTAGAGATCGATCGATGCTGATAGCTACGATCagcactgatGCATCGCTG AT

答案1

问题有点不清楚。假设您想查找由相同核酸组成两次或多次的所有子字符串,sed 可以提供帮助:

sed -r 's:([ACGTacgt])\1+:\n>&\n:g;s:^[^>]+$::mg;s:\n+>?:\n:g' INPUT

输出:

TT
GG
AAAAA
CC
CC
CC
CC
AA
CC
AA
AA

对于特定的核酸,请[Aa]在脚本的开头使用例如。

相关内容