为什么有些 OCR pdf 可以抓取，有些却不可以？

2024-6-3 • tag-icon

为什么有些 OCR pdf 可以抓取，有些却不可以？

假设我有 10 个可以使用 pdfgrep 搜索的文件

其中有些可以使用 grep 搜索，有些则不能

这是为什么？是什么特性使得 pdf 可以被 greppbale 所利用？

答案1

如果不指定这些 PDF 的来源，就很难确定，但 PDF 可以是以下几种之一：

实际的文本文档、字符串、格式说明等。易于查找。
经过 OCR 机制处理的图像，在图像下方嵌入文本。易于抓取。
一张纸的图片。无法抓取。

我认为那些不能使用的没有进行 OCR 处理。有进行 OCR 处理的流程，但这是一个稍微大一点的问题。

相关内容