我有一个 PDF 文档,但出于某种原因,我无法在其中复制粘贴或搜索。PDF 是基于文本的文件,而不是图像文件。当我尝试将文本复制粘贴到 Microsoft Word 或 GNU Emacs 中时,字母的位置出现了许多小方框。当我尝试在 Adobe Reader 中搜索文本时,我找不到我能看到的单词。该文档似乎没有应用任何特殊保护。我以前有过一两次 PDF。我尝试在 Google Docs 中打开它,但同样,虽然结果是纯文本,但我无法搜索它。这是否引起了任何人的注意?
我尝试查看 PDF 的字体,它看起来像这样:
--font-65795-6--(嵌入子集) 类型:TrueType 编码:内置 世纪(嵌入式子集) 类型:TrueType 编码:内置
随后是 Century、Helvetica、Symbol、Times-Roman 和 Verdana 的类似行。
答案1
此 PDF 可能包含嵌入其中的自有字体。在这种情况下,尽管 PDF 仍能正确显示,但正确的文本信息并不总是可用的,并且无法进行复制。
字体实际上都是嵌入的,但所有编码信息都已被删除。当一个在语法上仍然完全符合 PDF 规范的 PDF 在制作 PDF 的过程中丢失了有关其中文本含义的重要信息时,就会发生这种情况。恢复编码信息非常困难,有时最好的选择是将页面转换为 TIFF,然后运行 OCR...
您可以尝试使用 PDF 到 Word 转换器,例如AnyBizSoft或网站转换器转换后,您可以从 word 或文本文件中获取任何您想要的内容。以下是分步说明教程对于 AnyBizSoft。(许多人推荐 AnyBizSoft,但我个人从未使用过。)
也可以看看最佳免费 PDF 工具获得更多工具和转换器。
答案2
使用 Adobe Acrobat Pro 9,我按如下方式处理由于自定义字体编码而导致的无法搜索的问题 pdf:所有这些命令(1-4)都来自文件菜单:
- 打开 pdf
- 项目清单
- 导出 -> 图像 -> jpg
- 创建 PDF -> 批量创建多个文件
- 合并 -> 将文件合并为单个 PDF
从文档菜单:
- 扫描 OCR {这是为了创建可搜索的 pdf 图像文件}。
但是,使用上述步骤转换后,258 页、1457 KB 大小的 PDF 文档将变成 67565 KB 的 PDF 文件。它变得更大了!但现在可以搜索了。
答案3
迄今为止最好的解决方案!如果您不介意质量略有下降的话……
1)使用光栅化第三方 PDF 打印机(我使用的是 Win2PDF)。最终结果基本上是原始 PDF 的扫描件,删除了字体数据。
2)从文档(顶部栏)菜单运行光学字符识别(OCR)文本识别工具。
最终结果是可搜索的 PDF(尽管看上去有些粗糙)。OCR 会使文件中的字符变得粗糙。但它们确实可搜索和复制/粘贴。
享受。
答案4
也许可以尝试在线(或离线) OCR 工具?