使用 pdfgrep 深度搜索多个 pdf 文件,忽略小于的计数

使用 pdfgrep 深度搜索多个 pdf 文件,忽略小于的计数

我正在使用“pdfgrep”在几个 pdf 文件中进行“深度搜索”,试图找到一个单词并计算文档的数量,如下所示:

# pdfgrep -ric PATTERN

./Example1.pdf:0
./Example2.pdf:10

知道如何忽略具有已定义计数的文件的打印输出吗?比如 0 或小于...?

答案1

假设文件路径不包含换行符,您可以将该输出通过管道传输到:

grep -v ':0$'

过滤掉以 结尾的行:0

或者

awk -F: '$NF >= 10'

仅列出至少有 10 个匹配项的文件。

要处理任意文件路径(包括带有换行符的文件路径),请使用 NUL 分隔符:

pcregrep -ricZ pattern | gawk -v RS='\0' '
  {RS="\n"; getline count; RS="\0"}
  count > 0 {print $0":"count}'

相关内容