Adobe Reader:“另存为其他->文本”显示乱码

Adobe Reader:“另存为其他->文本”显示乱码

我有一个 PDF,可以在 Adob​​e Reader XI 中正常打开。它显示正常,没有密码等。我试图将这些保存为文本以进行一些自动化工作,但它不起作用。

当我转到File->Save As Other->Text,将其保存为 .txt 文件时,它会毫无错误地保存。

当我查看 txt 文件时,它无法读取。它包含如下数据:

G+G+./,-&6H,GH7-&IE&

我可以验证某些 PDF(例如 AT&T 网站上的 PDF)是否可以使用此功能,但我拥有的 PDF 无法使用。这是为什么?我如何将它们转换为纯文本?它们没有密码保护之类的。

这不是 OCR。我可以突出显示单词、字母等。

我在属性的“安全”下验证了:

安全方法:无安全措施

可以通过以下方式打开:所有版本的 Acrobat

打印:允许

内容复制:允许

答案1

PDF 可以通过多种方式创建。如果 PDF 是通过扫描仪创建的,则它可能经过了 OCR(光学字符识别),也可能没有经过。如果执行了 OCR,您将获得一个文本层,该文本层与图形层(您通常看到的)的布局有些对应。OCR 的文本准确度很少是 100%。如果您从 Google Docs 或 Microsoft Word 打印到 PDF,则文本层将 100% 准确。听起来您尝试保存的 PDF 是前者。

我发现测试和查看文本层的最简单方法是使用免费的 PDF 阅读器福昕阅读器。它们有一个带有“文本查看器”选项的视图选项卡。请参见下面的屏幕截图。如果文本层显示乱码,这将解释为什么 Adob​​e Reader XI 中的“另存为其他 > 文本”显示乱码。

正如他们所说,垃圾进,垃圾出(GIGO)。

Foxit Reader 查看选项

答案2

我使用 CutePDF Writer(显示为打印机选项)保存文档。当我打开保存的文档并尝试从中复制时,它不起作用。我看到的是符号。

我使用 CutePDF Writer 打开了一个要“打印”为 PDF 的文档,然后采取了以下步骤:

  • 文件 → 打印 →(选择)CutePDF Writer → 打印机属性 →(在布局中)高级 → PostScript 选项 → PostScript 输出选项 →(从下拉菜单中选择)优化可移植性。

这使得我在 Acrobat Reader 中打开 PDF 文本时可以轻松复制文本。

相关内容