根据模式提取字符，但仅在两个范围起始模式和一个公共结束模式之间提取字符

Question

下面是一个awk解决方案。它需要 GNU awk 来实现该gensub()功能：

awk '$0=="EMC" {s=0} s{print FNR, gensub(/[^(]*\((.)\)[^(]*/, "\\1", "g")} /^\/(Span|H1) <<\/MCID$/ {s=1}' test.pdf

s当找到起始模式时，这会将标志设置为 1，起始模式定义为以/SpanOR开头/H1、后跟并以结尾的行<</MCID。如果EMC找到包含以下内容的行，则该标志将被重置。

在该区域内（即当s为 1 时），使用该gensub()函数将任何出现的模式“任意数量的非 a 字符(，后跟中的一个字符( )，后跟任意数量的非 a 字符(”替换为中包含的字符( )。然后它打印当前行号和提取的文本。

笔记这意味着有不起始行和结束行之间不包含这种模式的行。

Answer 1

下面是一个awk解决方案。它需要 GNU awk 来实现该gensub()功能：

awk '$0=="EMC" {s=0} s{print FNR, gensub(/[^(]*\((.)\)[^(]*/, "\\1", "g")} /^\/(Span|H1) <<\/MCID$/ {s=1}' test.pdf

s当找到起始模式时，这会将标志设置为 1，起始模式定义为以/SpanOR开头/H1、后跟并以结尾的行<</MCID。如果EMC找到包含以下内容的行，则该标志将被重置。

在该区域内（即当s为 1 时），使用该gensub()函数将任何出现的模式“任意数量的非 a 字符(，后跟中的一个字符( )，后跟任意数量的非 a 字符(”替换为中包含的字符( )。然后它打印当前行号和提取的文本。

笔记这意味着有不起始行和结束行之间不包含这种模式的行。

相关内容