使用 pdfgrep 深度搜索多个 pdf 文件，忽略小于的计数

Question

假设文件路径不包含换行符，您可以将该输出通过管道传输到：

grep -v ':0$'

过滤掉以结尾的行:0。

或者

awk -F: '$NF >= 10'

仅列出至少有 10 个匹配项的文件。

要处理任意文件路径（包括带有换行符的文件路径），请使用 NUL 分隔符：

pcregrep -ricZ pattern | gawk -v RS='\0' '
  {RS="\n"; getline count; RS="\0"}
  count > 0 {print $0":"count}'

Answer 1

假设文件路径不包含换行符，您可以将该输出通过管道传输到：

grep -v ':0$'

过滤掉以结尾的行:0。

或者

awk -F: '$NF >= 10'

仅列出至少有 10 个匹配项的文件。

要处理任意文件路径（包括带有换行符的文件路径），请使用 NUL 分隔符：

pcregrep -ricZ pattern | gawk -v RS='\0' '
  {RS="\n"; getline count; RS="\0"}
  count > 0 {print $0":"count}'

相关内容