sed 命令的 bash 脚本用于获取单行或多行之间的两个字符串之间的数据

Question 1

这可能就是您想要做的，使用 GNU awk 表示多字符RS、RT、\<字边界，并\s使用简写表示[[:space:]]：

$ zcat *.v.gz | awk -v RS='\\<module\\s+[^[:space:](]+' 'RT{$0=RT; print $2}'
mod_reg_lif
dff_reg_net
dat_log_out
rest_wire_lib

Answer

这可能就是您想要做的，使用 GNU awk 表示多字符RS、RT、\<字边界，并\s使用简写表示[[:space:]]：

$ zcat *.v.gz | awk -v RS='\\<module\\s+[^[:space:](]+' 'RT{$0=RT; print $2}'
mod_reg_lif
dff_reg_net
dat_log_out
rest_wire_lib

Question 2

从您给出的示例来看，括号仅出现在模块名称之后，并且模块名称没有空格。如果是这样，你可以这样做：

$ zgrep -oP '\S+\s*(?=\()' file.v.gz 
mod_reg_lif(
dff_reg_net
dat_log_out 
rest_wire_lib

额外的(在mod_reg_lif(那里是因为你的例子有module mod_reg_lif((out, In, clk, rst )，我认为这是一个错字。

这里的想法是在 grep 中使用 PCRE 模式来获取前瞻这让我们可以查找非空白字符 ( \S+)，后跟 0 个或多个空白字符 ( \s*)，然后是(( (?=\())。

如果你没有带-P选项的 grep，你可以这样做：

$ zgrep -o '[^[:blank:]]*[[:blank:]]*(' file.v.gz | sed 's/ *(//g'
mod_reg_lif
dff_reg_net
dat_log_out
rest_wire_lib

如果你不能使用括号，如果你的文件中还有其他地方可能出现括号，所以你需要使用字符串来module标识模块名称，你可以尝试：

$ zcat file.v.gz | perl -007ne 'print join("\n",(/\bmodule\s*(\S+?)\s*\(/gs)),"\n"; '
mod_reg_lif
dff_reg_net
dat_log_out
rest_wire_lib

请注意，这会将整个文件加载到内存中，这对于大文件可能是一个问题。

最后，您还可以使用awk，将记录分隔符设置为两个空字符串，这会导致 awk 在“段落模式”下工作，其中记录（行）由两个连续的换行符定义。然后，删除一行中第一个括号后面的所有内容并打印第二个字段：

$ zcat file.v.gz | awk 'BEGIN{RS=""}{sub(/\(.*/,"");print $2; }'
mod_reg_lif
dff_reg_net
dat_log_out
rest_wire_lib

Answer