我从测序运行中获得了 FASTQ 文件,并且正在尝试使用 Unix 删除第二个索引引物的序列。以下是 FASTQ 文件的前几行。我试图+AGCGCGAT
从第一行、+AGCTCGCG
第五行等中删除。本质上,它删除了一个加号及其后面的任何八个字符( A
、C
、G
、T
或)。N
在此先感谢您的帮助。
@NS500663:433:HGFVKBGX2:1:11101:2828:1039 1:N:0:CGAGTGCT+AGCGCGAT
TCTGGNAACTTGGCTGATTCACTGGCCACGATACCTCATGTCCTCATCCATCAGGATTATCAGCTGCATAGACGG
+
AAAAA#EEEEEEEEEEEEEA/EEEEEE/EE6E/E/E///E//6EE///EA/////E/E/</E/A6/<E////6//
@NS500663:433:HGFVKBGX2:1:11101:8765:1039 1:N:0:ATCACGAT+AGCTCGCG
CATGTNAAATGAAATACATGGGAGACAAATATTTTTACTTATATAGAGTAGTTTCTCAAGGATTTTATAAATACA
+
AAAAA#EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEAEEEEEAEAEAEEEEAEEEEEEEEEEEEEEEEEEE
答案1
$ sed 's/^\(@.*\)+.*$/\1/' file.fastq >new-file.fastq
+
这将从这些行中删除引物序列和。
它将找到所有以符号开头@
并包含+
符号的行。它将仅用符号之前的位替换该行+
,并删除其余部分。
输入来自file.fastq
,输出将前往new-file.fastq
。
以下内容的限制性更强,因为它明确匹配您在 后提到的字符+
:
$ sed 's/^\(@.*\)+[ACGTN]*$/\1/' file.fastq >new-file.fastq