从 FASTQ 中删除第二个引物序列

从 FASTQ 中删除第二个引物序列

我从测序运行中获得了 FASTQ 文件,并且正在尝试使用 Unix 删除第二个索引引物的序列。以下是 FASTQ 文件的前几行。我试图+AGCGCGAT从第一行、+AGCTCGCG第五行等中删除。本质上,它删除了一个加号及其后面的任何八个字符( ACGT或)。N在此先感谢您的帮助。

@NS500663:433:HGFVKBGX2:1:11101:2828:1039 1:N:0:CGAGTGCT+AGCGCGAT
TCTGGNAACTTGGCTGATTCACTGGCCACGATACCTCATGTCCTCATCCATCAGGATTATCAGCTGCATAGACGG
+
AAAAA#EEEEEEEEEEEEEA/EEEEEE/EE6E/E/E///E//6EE///EA/////E/E/</E/A6/<E////6//
@NS500663:433:HGFVKBGX2:1:11101:8765:1039 1:N:0:ATCACGAT+AGCTCGCG
CATGTNAAATGAAATACATGGGAGACAAATATTTTTACTTATATAGAGTAGTTTCTCAAGGATTTTATAAATACA
+
AAAAA#EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEAEAEEEEAEEEEEEEEEEEEEEEEEEE

答案1

$ sed 's/^\(@.*\)+.*$/\1/' file.fastq >new-file.fastq

+这将从这些行中删除引物序列和。

它将找到所有以符号开头@并包含+符号的行。它将仅用符号之前的位替换该行+,并删除其余部分。

输入来自file.fastq,输出将前往new-file.fastq

以下内容的限制性更强,因为它明确匹配您在 后提到的字符+

$ sed 's/^\(@.*\)+[ACGTN]*$/\1/' file.fastq >new-file.fastq

相关内容