如何使用 docfetcher 在 PDF 文件中搜索文本?

如何使用 docfetcher 在 PDF 文件中搜索文本?

我尝试在 PDF 文件中查找一些文本,但结果不准确!例如,我有 2 个 PDF 文件,其中包含单词住所。当我搜索这个词(domiciliado)时,docfetcher 只显示一个包含这个词的 PDF 文件。我的问题是为什么 docfetcher 不显示另一个包含这个词的 PDF 文件?PDF 文件之间有什么区别吗?在一个 PDF 中,我只有文本,而其他 PDF 中有文本和图像,这是从扫描的页面中获取的。有什么问题吗?

PS:2 个 PDF 文件位于同一目录中

答案1

仅包含文本的 PDF 文件和包含文本和图像扫描页面的 PDF 文件之间有什么区别?

是的,带有文本的 PDF 文件和带有扫描图像的 PDF 文件是不同的。在基于图像的 PDF 中,计算机只能看到图像,而识别这些图像中的文本需要在 PDF 引擎中内置额外的功能,例如光学字符识别(OCR)。带有文本的PDF更容易被计算机搜索,因为计算机可以直接识别文本。

推荐

相关内容