我有一个 PDF,可以在 Adobe Reader XI 中正常打开。它显示正常,没有密码等。我试图将这些保存为文本以进行一些自动化工作,但它不起作用。
当我转到File->Save As Other->Text
,将其保存为 .txt 文件时,它会毫无错误地保存。
当我查看 txt 文件时,它无法读取。它包含如下数据:
G+G+./,-&6H,GH7-&IE&
我可以验证某些 PDF(例如 AT&T 网站上的 PDF)是否可以使用此功能,但我拥有的 PDF 无法使用。这是为什么?我如何将它们转换为纯文本?它们没有密码保护之类的。
这不是 OCR。我可以突出显示单词、字母等。
我在属性的“安全”下验证了:
安全方法:无安全措施
可以通过以下方式打开:所有版本的 Acrobat
打印:允许
内容复制:允许
答案1
PDF 可以通过多种方式创建。如果 PDF 是通过扫描仪创建的,则它可能经过了 OCR(光学字符识别),也可能没有经过。如果执行了 OCR,您将获得一个文本层,该文本层与图形层(您通常看到的)的布局有些对应。OCR 的文本准确度很少是 100%。如果您从 Google Docs 或 Microsoft Word 打印到 PDF,则文本层将 100% 准确。听起来您尝试保存的 PDF 是前者。
我发现测试和查看文本层的最简单方法是使用免费的 PDF 阅读器福昕阅读器。它们有一个带有“文本查看器”选项的视图选项卡。请参见下面的屏幕截图。如果文本层显示乱码,这将解释为什么 Adobe Reader XI 中的“另存为其他 > 文本”显示乱码。
正如他们所说,垃圾进,垃圾出(GIGO)。
答案2
我使用 CutePDF Writer(显示为打印机选项)保存文档。当我打开保存的文档并尝试从中复制时,它不起作用。我看到的是符号。
我使用 CutePDF Writer 打开了一个要“打印”为 PDF 的文档,然后采取了以下步骤:
- 文件 → 打印 →(选择)CutePDF Writer → 打印机属性 →(在布局中)高级 → PostScript 选项 → PostScript 输出选项 →(从下拉菜单中选择)优化可移植性。
这使得我在 Acrobat Reader 中打开 PDF 文本时可以轻松复制文本。