假设我有 10 个可以使用 pdfgrep 搜索的文件
其中有些可以使用 grep 搜索,有些则不能
这是为什么?是什么特性使得 pdf 可以被 greppbale 所利用?
答案1
如果不指定这些 PDF 的来源,就很难确定,但 PDF 可以是以下几种之一:
- 实际的文本文档、字符串、格式说明等。易于查找。
- 经过 OCR 机制处理的图像,在图像下方嵌入文本。易于抓取。
- 一张纸的图片。无法抓取。
我认为那些不能使用的没有进行 OCR 处理。有进行 OCR 处理的流程,但这是一个稍微大一点的问题。