PDF 内容 - 最快判断它是文本还是扫描的图形的方法?

PDF 内容 - 最快判断它是文本还是扫描的图形的方法?

使用Adobe Reader 9 我正在看一份包含多页文本的 PDF 文档。

我认为它是扫描的图形,而不是真正的文本。我不太熟悉 PDF 格式,但我认为它可以区分真正的文本内容和图形内容(就像 HTML 或 MSWord 那样)。

Acrobat 有多种工具/模式。如果我选​​择选择工具并将鼠标拖过文本,它只会创建一个矩形(而不是块突出显示的单词),那么它是一个图形对吗?

你可能已经猜到了,我希望我错了,但我只是想确定一下。

答案1

Acrobat Reader 应该有一个选择文本工具,请使用该工具代替常规选择工具。选择文本工具在插入符号旁边有一个大写字母 T,如下所示这两个 网页

我很久没用过 Acrobat Reader 了,所以我不能确认选择文本在版本 9 中仍然可用。如果不可用,请尝试使用常规选择工具,然后复制。如果您可以将其粘贴到记事本或运行对话框中,则它是文本;如果您可以将其粘贴到 MSPaint 中,则它是图形。

另外,您也可以使用其他 PDF 程序。Foxit 很受欢迎,并且像 Acrobat 一样有免费阅读器,但我个人现在使用 Google Chrome,因为它有一个 PDF 插件,几乎可以用于任何常规 PDF 阅读目的,包括选择和复制文本(即使您不想将其用作浏览器,Chrome 也是一款很棒的 PDF 阅读器!)

答案2

使用Ctrl-F查找文本(例如,“a”、“e”和“i”;如果均未找到,则几乎可以肯定文档不包含文本)。如果成功,则为文本或 OCR。

钙镁铝我在记事本 (Cv) 上什么也没找到。我认为这是检查它是否没有文本的另一种方法。

“文件 > 属性 > 字体”(或右键单击 > 属性 > 字体)不合适:我测试了一个图形文件,它有 3 种字体。此外,我也没有发现任何其他与文本 pdf 不同的属性。

答案3

是的。使用选择工具是确定这一点的最简单方法。但是,有时 Adob​​e Reader 使用 OCR 将图像中的文本复制为文本,而不是图像。

答案4

我对 Adob​​e Reader 一无所知,但我熟悉的 PDF 工具(Okular 和 Evince)有一个显示文档字体的选项。没有显示字体的文档可能是扫描的,而引用至少一种字体的文档可能有真实的文本。这绝不是万无一失的,但也许总比没有好?

如果 Adob​​e Rearder 没有列出字体,那么可能是自带的实用程序波普勒(Okular 和 Evince 背后的库)可以帮忙吗?

相关内容