为什么我不能将 sed 命令分组到块中的地址之后?

为什么我不能将 sed 命令分组到块中的地址之后?

我试图用来sed打印所有行,直到但排除特定模式。我不明白为什么以下不起作用:

sed '/PATTERN/{d;q}' file

根据我对 sed 脚本的理解,这个表达式应该导致以下结果:

  • 当一行匹配时/PATTERN/,执行由命令组成的组
    1. d删除模式空间(=当前行)
    2. quit 打印当前模式空间后

孤立地,两者都/PATTERN/d工作/PATTERN/q;也就是说,d删除有问题的行,并q导致sed终止但打印该行后,如记录的那样。但是将这两个操作组合在一个块中似乎会导致它们q被忽略。

我知道我可以使用Q而不是{d;q}作为 GNU 扩展(并且这可以按预期工作!),但我有兴趣了解为什么上述内容不起作用,以及我以何种方式误解了文档。


我的实际用例(仅稍微)更复杂,因为文件的第一行实际上与模式匹配,并且我跳过它(在进行一些替换之后):

sed -e '1{s/>21/>chr21/; n}' -e '/>/{d;q}' in.fasta >out.fasta

但上面的简化案例表现出相同的行为。

答案1

输出文件的所有行,直到匹配特定模式(以及不是输出匹配行),你可以使用

sed -n '/PATTERN/q; p;' file

这里,每个周期结束时模式空间的默认输出被 禁用-n。相反,我们用 明确输出每一行p。如果给定的模式匹配,我们将停止处理q

您实际的较长命令将 21 号染色体的名称从仅更改21chr21位于 fasta 文件的第一行,然后继续提取该染色体的 DNA,直到它到达下一个 fasta 标题行,可以写为

sed -n -e '1 { s/^>21/>chr21/p; d; }' \
       -e '/^>/q' \
       -e p <in.fasta >out.fasta

或者

sed -n '1 { s/^>21/>chr21/p; d; }; /^>/q; p' <in.fasta >out.fasta

原始表达式的问题是d开始一个新的循环(即,它强制将下一行读入模式空间,并且跳转到脚本的开头)。这意味着q永远不会被执行。

请注意,为了在非 GNU 系统上语法正确,您的原始脚本应该类似于/PATTERN/ { d; q; }.注意;后面添加的q(空格不重要)。

答案2

d不只是删除模式空间:从POSIX规范

[2addr]d

删除模式空间并开始下一个循环

(我的重点)

q命令无法访问。

答案3

您可以使用双地址形式获得相同的输出(仅第一个匹配之前的那些行):

sed -e '/PATTERN/,$d'

但与使用 的方法不同q,这意味着sed继续读取每个输入行。这对于大型输入文件或从管道读取时可能会产生影响。

相关内容