如何从 /begin/ 到 /end/ 读取文件（如果两者可能位于同一行）

Question 1

您可以使用pcregrep的多行模式：

$ pcregrep --include='\.h$' -rM '(?s)^\s*(\w+\s+)*int cacheflush\s*\(.*?;' glibc
glibc/sysdeps/unix/sysv/linux/mips/sys/cachectl.h:extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;
glibc/sysdeps/unix/sysv/linux/csky/sys/cachectl.h:extern int cacheflush (void *__addr, const int __nbytes,
                       const int __op) __THROW;
glibc/sysdeps/unix/sysv/linux/nios2/sys/cachectl.h:extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;

通过 PCRE，您可以访问 Perl 的大多数高级正则表达式运算符。在这里，我们使用：

\w，以及\s单词和空白字符。
(?s)：使s标志.也能够匹配换行符。
*?：的非贪婪版本*。所以它匹配第一的的发生;，而不是像贪婪版本那样最后一次发生。

有关详细信息，请参阅pcrepattern(3)手册页。

Answer

您可以使用pcregrep的多行模式：

$ pcregrep --include='\.h$' -rM '(?s)^\s*(\w+\s+)*int cacheflush\s*\(.*?;' glibc
glibc/sysdeps/unix/sysv/linux/mips/sys/cachectl.h:extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;
glibc/sysdeps/unix/sysv/linux/csky/sys/cachectl.h:extern int cacheflush (void *__addr, const int __nbytes,
                       const int __op) __THROW;
glibc/sysdeps/unix/sysv/linux/nios2/sys/cachectl.h:extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;

通过 PCRE，您可以访问 Perl 的大多数高级正则表达式运算符。在这里，我们使用：

\w，以及\s单词和空白字符。
(?s)：使s标志.也能够匹配换行符。
*?：的非贪婪版本*。所以它匹配第一的的发生;，而不是像贪婪版本那样最后一次发生。

有关详细信息，请参阅pcrepattern(3)手册页。

Question 2

不需要调用sed两次，只需在输入范围之前检查开始/结束是否恰好在同一行。

$ find glibc/ -name '*.h' \
|xargs sed \
    -e "/${pattern}.*;\$/b"  \
    -e "/${pattern}/,/;\$/p" \
    -e 'd' ;

find请注意，如果您限制该实用程序仅查找常规文件，那就太好了，否则在sed对名称以 a 结尾的目录进行操作时，您可能会看到警告.h

Answer

不需要调用sed两次，只需在输入范围之前检查开始/结束是否恰好在同一行。

$ find glibc/ -name '*.h' \
|xargs sed \
    -e "/${pattern}.*;\$/b"  \
    -e "/${pattern}/,/;\$/p" \
    -e 'd' ;

find请注意，如果您限制该实用程序仅查找常规文件，那就太好了，否则在sed对名称以 a 结尾的目录进行操作时，您可能会看到警告.h

Question 3

我想出了一个（丑陋的）解决方案：

读取从/begin/到/^$/（空行），重复该模式的第一行，以便sed(1)可以在后续步骤中对其采取行动。
使用sed(1)查找从/begin/到/end/。在此步骤保留空行以便能够使用uniq(1)在下一步中正确删除我们在步骤 1 中重复的行。
使用uniq(1)删除重复的行。

$ syscall=cacheflush;
$ return=int;
$ pattern="^[a-z ]*${return} ${syscall}[ ]*(";
$ find glibc/ -name '*.h' \
  |xargs sed -n -e "/${pattern}/p" -e "/${pattern}/,/^$/p" \
  |sed -n -e "/${pattern}/,/;/p" -e '/^$/p' \
  |uniq;
extern int cacheflush (void *__addr, int __nbytes, int __op) __THROW;

extern int cacheflush (void *__addr, const int __nbytes,
               const int __op) __THROW;

extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;

extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;

请提供一个更简单的解决方案:)

Answer

我想出了一个（丑陋的）解决方案：

读取从/begin/到/^$/（空行），重复该模式的第一行，以便sed(1)可以在后续步骤中对其采取行动。
使用sed(1)查找从/begin/到/end/。在此步骤保留空行以便能够使用uniq(1)在下一步中正确删除我们在步骤 1 中重复的行。
使用uniq(1)删除重复的行。

$ syscall=cacheflush;
$ return=int;
$ pattern="^[a-z ]*${return} ${syscall}[ ]*(";
$ find glibc/ -name '*.h' \
  |xargs sed -n -e "/${pattern}/p" -e "/${pattern}/,/^$/p" \
  |sed -n -e "/${pattern}/,/;/p" -e '/^$/p' \
  |uniq;
extern int cacheflush (void *__addr, int __nbytes, int __op) __THROW;

extern int cacheflush (void *__addr, const int __nbytes,
               const int __op) __THROW;

extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;

extern int cacheflush (void *__addr, const int __nbytes, const int __op) __THROW;

请提供一个更简单的解决方案:)

如何从 /begin/ 到 /end/ 读取文件（如果两者可能位于同一行）

答案1

答案2

答案3

相关内容