我正在使用“pdfgrep”在几个 pdf 文件中进行“深度搜索”,试图找到一个单词并计算文档的数量,如下所示:
# pdfgrep -ric PATTERN
./Example1.pdf:0
./Example2.pdf:10
知道如何忽略具有已定义计数的文件的打印输出吗?比如 0 或小于...?
答案1
假设文件路径不包含换行符,您可以将该输出通过管道传输到:
grep -v ':0$'
过滤掉以 结尾的行:0
。
或者
awk -F: '$NF >= 10'
仅列出至少有 10 个匹配项的文件。
要处理任意文件路径(包括带有换行符的文件路径),请使用 NUL 分隔符:
pcregrep -ricZ pattern | gawk -v RS='\0' '
{RS="\n"; getline count; RS="\0"}
count > 0 {print $0":"count}'