如何使用 docfetcher 在 PDF 文件中搜索文本？

Question

仅包含文本的 PDF 文件和包含文本和图像扫描页面的 PDF 文件之间有什么区别？

是的，带有文本的 PDF 文件和带有扫描图像的 PDF 文件是不同的。在基于图像的 PDF 中，计算机只能看到图像，而识别这些图像中的文本需要在 PDF 引擎中内置额外的功能，例如光学字符识别（OCR）。带有文本的PDF更容易被计算机搜索，因为计算机可以直接识别文本。

推荐

搜索扫描的 PDF 的一种方法是先对其进行 OCR 以提取文本，然后执行搜索。请查看此问题，了解一些适用于 Ubuntu 的优秀 OCR最好、最简单的 OCR 解决方案是什么？
对于仅使用文本在 PDF 中搜索文本，我建议使用命令行工具pdfgrep还有其他不错的选择。看看这个问题如何从命令行搜索 PDF 文件？

Answer 1

仅包含文本的 PDF 文件和包含文本和图像扫描页面的 PDF 文件之间有什么区别？

是的，带有文本的 PDF 文件和带有扫描图像的 PDF 文件是不同的。在基于图像的 PDF 中，计算机只能看到图像，而识别这些图像中的文本需要在 PDF 引擎中内置额外的功能，例如光学字符识别（OCR）。带有文本的PDF更容易被计算机搜索，因为计算机可以直接识别文本。

相关内容