如何查找可搜索的 PDF

如何查找可搜索的 PDF

我有一个包含许多 PDF 的文件夹。其中一些无疑是可搜索的。我可以搜索并仅识别那些可搜索的 PDF 吗?

如果 PDF 是图像,Adobe 会给出一条错误消息,询问您是否要将其转换为可搜索的文本。我不知道这是通用的还是 Adob​​e 特有的。我想一个更完整的问题应该是,如果遇到图像,我该如何搁置文件?我会阅读 manpdfinfo看看是否能找到任何有帮助的东西。

答案1

在特定文件夹中您可以使用pdfgrep

pdfgrep --recursive --count .

末尾带有零的行是不可搜索的(点是正则表达式匹配任意字符)。此外,

pdfgrep -r -c . | grep -oP "\:\d*$" | sed 's/^\:0$/Not searchable/g;s/^\:[1-9][0-9]*$/Searchable/' | sort | uniq -c

将为您提供一些关于有多少可搜索或多少不可搜索的统计数据。

相关内容