在pdf文件中搜索关键字

在pdf文件中搜索关键字

我想使用 Linux shell 在 pdf 文件中搜索特定关键字。我将如何使用 grep 命令来做到这一点?

答案1

你不会的。 PDF 是二进制格式,因此您需要先转换为文本。 Grep 可以搜索数据,但没有理由假设在 PDF 查看器中打开时具有字符串的 PDFfoo实际上会包含foo在原始二进制数据中。源代码中的写法可能非常不同。

一个简单的解决方案是安装pdftotext并使用它。它应该可以在您的发行版的存储库中找到。在基于 Debian 的系统上,您可以使用以下命令安装它:

sudo apt-get install poppler-utils

然后,您可以使用以下命令搜索 PDF 文件:

pdftotext foo.pdf - | grep keyword

相关内容