无法搜索、无法复制的 PDF 文档

无法搜索、无法复制的 PDF 文档

我有一个 PDF 文档,但出于某种原因,我无法在其中复制粘贴或搜索。PDF 是基于文本的文件,而不是图像文件。当我尝试将文本复制粘贴到 Microsoft Word 或 GNU Emacs 中时,字母的位置出现了许多小方框。当我尝试在 Adob​​e Reader 中搜索文本时,我找不到我能看到的单词。该文档似乎没有应用任何特殊保护。我以前有过一两次 PDF。我尝试在 Google Docs 中打开它,但同样,虽然结果是纯文本,但我无法搜索它。这是否引起了任何人的注意?

我尝试查看 PDF 的字体,它看起来像这样:

--font-65795-6--(嵌入子集)
类型:TrueType
编码:内置
世纪(嵌入式子集)
类型:TrueType
编码:内置

随后是 Century、Helvetica、Symbol、Times-Roman 和 Verdana 的类似行。

答案1

此 PDF 可能包含嵌入其中的自有字体。在这种情况下,尽管 PDF 仍能正确显示,但正确的文本信息并不总是可用的,并且无法进行复制。

字体实际上都是嵌入的,但所有编码信息都已被删除。当一个在语法上仍然完全符合 PDF 规范的 PDF 在制作 PDF 的过程中丢失了有关其中文本含义的重要信息时,就会发生这种情况。恢复编码信息非常困难,有时最好的选择是将页面转换为 TIFF,然后运行 ​​OCR...

您可以尝试使用 PDF 到 Word 转换器,例如AnyBizSoft网站转换器转换后,您可以从 word 或文本文件中获取任何您想要的内容。以下是分步说明教程对于 AnyBizSoft。(许多人推荐 AnyBizSoft,但我个人从未使用过。)

也可以看看最佳免费 PDF 工具获得更多工具和转换器。

答案2

使用 Adob​​e Acrobat Pro 9,我按如下方式处理由于自定义字体编码而导致的无法搜索的问题 pdf:所有这些命令(1-4)都来自文件菜单:

  1. 打开 pdf
  2. 项目清单
  3. 导出 -> 图像 -> jpg
  4. 创建 PDF -> 批量创建多个文件
  5. 合并 -> 将文件合并为单个 PDF

从文档菜单:

  1. 扫描 OCR {这是为了创建可搜索的 pdf 图像文件}。

但是,使用上述步骤转换后,258 页、1457 KB 大小的 PDF 文档将变成 67565 KB 的 PDF 文件。它变得更大了!但现在可以搜索了。

答案3

迄今为止最好的解决方案!如果您不介意质量略有下降的话……

1)使用光栅化第三方 PDF 打印机(我使用的是 Win2PDF)。最终结果基本上是原始 PDF 的扫描件,删除了字体数据。

2)从文档(顶部栏)菜单运行光学字符识别(OCR)文本识别工具。

最终结果是可搜索的 PDF(尽管看上去有些粗糙)。OCR 会使文件中的字符变得粗糙。但它们确实可搜索和复制/粘贴。

享受。

答案4

也许可以尝试在线(或离线) OCR 工具?

相关内容