我尝试在 PDF 文件中查找一些文本,但结果不准确!例如,我有 2 个 PDF 文件,其中包含单词住所。当我搜索这个词(domiciliado)时,docfetcher 只显示一个包含这个词的 PDF 文件。我的问题是为什么 docfetcher 不显示另一个包含这个词的 PDF 文件?PDF 文件之间有什么区别吗?在一个 PDF 中,我只有文本,而其他 PDF 中有文本和图像,这是从扫描的页面中获取的。有什么问题吗?
PS:2 个 PDF 文件位于同一目录中
答案1
仅包含文本的 PDF 文件和包含文本和图像扫描页面的 PDF 文件之间有什么区别?
是的,带有文本的 PDF 文件和带有扫描图像的 PDF 文件是不同的。在基于图像的 PDF 中,计算机只能看到图像,而识别这些图像中的文本需要在 PDF 引擎中内置额外的功能,例如光学字符识别(OCR)。带有文本的PDF更容易被计算机搜索,因为计算机可以直接识别文本。
推荐
搜索扫描的 PDF 的一种方法是先对其进行 OCR 以提取文本,然后执行搜索。请查看此问题,了解一些适用于 Ubuntu 的优秀 OCR最好、最简单的 OCR 解决方案是什么?
对于仅使用文本在 PDF 中搜索文本,我建议使用命令行工具pdfgrep还有其他不错的选择。看看这个问题如何从命令行搜索 PDF 文件?