为什么有些 OCR pdf 可以抓取,有些却不可以?

为什么有些 OCR pdf 可以抓取,有些却不可以?

假设我有 10 个可以使用 pdfgrep 搜索的文件

其中有些可以使用 grep 搜索,有些则不能

这是为什么?是什么特性使得 pdf 可以被 greppbale 所利用?

答案1

如果不指定这些 PDF 的来源,就很难确定,但 PDF 可以是以下几种之一:

  • 实际的文本文档、字符串、格式说明等。易于查找。
  • 经过 OCR 机制处理的图像,在图像下方嵌入文本。易于抓取。
  • 一张纸的图片。无法抓取。

我认为那些不能使用的没有进行 OCR 处理。有进行 OCR 处理的流程,但这是一个稍微大一点的问题。

相关内容