我试图用来sed
打印所有行,直到但排除特定模式。我不明白为什么以下不起作用:
sed '/PATTERN/{d;q}' file
根据我对 sed 脚本的理解,这个表达式应该导致以下结果:
- 当一行匹配时
/PATTERN/
,执行由命令组成的组d
删除模式空间(=当前行)q
uit 打印当前模式空间后
孤立地,两者都/PATTERN/d
工作/PATTERN/q
;也就是说,d
删除有问题的行,并q
导致sed
终止但打印该行后,如记录的那样。但是将这两个操作组合在一个块中似乎会导致它们q
被忽略。
我知道我可以使用Q
而不是{d;q}
作为 GNU 扩展(并且这可以按预期工作!),但我有兴趣了解为什么上述内容不起作用,以及我以何种方式误解了文档。
我的实际用例(仅稍微)更复杂,因为文件的第一行实际上与模式匹配,并且我跳过它(在进行一些替换之后):
sed -e '1{s/>21/>chr21/; n}' -e '/>/{d;q}' in.fasta >out.fasta
但上面的简化案例表现出相同的行为。
答案1
输出文件的所有行,直到匹配特定模式(以及不是输出匹配行),你可以使用
sed -n '/PATTERN/q; p;' file
这里,每个周期结束时模式空间的默认输出被 禁用-n
。相反,我们用 明确输出每一行p
。如果给定的模式匹配,我们将停止处理q
。
您实际的较长命令将 21 号染色体的名称从仅更改21
为chr21
位于 fasta 文件的第一行,然后继续提取该染色体的 DNA,直到它到达下一个 fasta 标题行,可以写为
sed -n -e '1 { s/^>21/>chr21/p; d; }' \
-e '/^>/q' \
-e p <in.fasta >out.fasta
或者
sed -n '1 { s/^>21/>chr21/p; d; }; /^>/q; p' <in.fasta >out.fasta
原始表达式的问题是d
开始一个新的循环(即,它强制将下一行读入模式空间,并且跳转到脚本的开头)。这意味着q
永远不会被执行。
请注意,为了在非 GNU 系统上语法正确,您的原始脚本应该类似于/PATTERN/ { d; q; }
.注意;
后面添加的q
(空格不重要)。
答案2
答案3
您可以使用双地址形式获得相同的输出(仅第一个匹配之前的那些行):
sed -e '/PATTERN/,$d'
但与使用 的方法不同q
,这意味着sed
继续读取每个输入行。这对于大型输入文件或从管道读取时可能会产生影响。