使用 awk 根据序列长度对 fastq 文件进行子集化

Question

您可以使用记录和字段分隔符来阻止 awk 使用换行符和空格。相反，您可以使用“\n@”来显示记录分隔，并使用普通的“\n”来分隔字段。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

每行都是不同的字段，因此您可以使用 $2 检查第二行的长度。我必须在打印时添加“@”，因为它会被记录分隔符吃掉。

Answer 1

您可以使用记录和字段分隔符来阻止 awk 使用换行符和空格。相反，您可以使用“\n@”来显示记录分隔，并使用普通的“\n”来分隔字段。

$ awk 'BEGIN {RS="\n@";FS="\n"} {if (length($2) <= 25) {print "@"$0} }' fastq
@SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
CTGCTGCTCATGCTCAT
+SRR1024120.25 DBRHHJN1:259:D0PM7ACXX:1:1101:1752:1149 length=100
BDDDDD<<CC:C+AFFE
@SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
AGCGTGTGCCACCCTACGCCGGC
+SRR1024120.42 DBRHHJN1:259:D0PM7ACXX:1:1101:2482:1096 length=100
DD>DAA@AA@@?2C8AB)?@:DD

每行都是不同的字段，因此您可以使用 $2 检查第二行的长度。我必须在打印时添加“@”，因为它会被记录分隔符吃掉。

使用 awk 根据序列长度对 fastq 文件进行子集化

答案1

相关内容