我有一篇 PDF 文章(不是我写的)。但是,我无法在 PDF 中搜索文本。我试过的所有 PDF 查看器都无法找到明显包含其中的单词。我试过使用 Adobe Acrobat Professional 8、SumatraPDF 和 Google Chrome。
我如何才能知道为什么该文档无法搜索?
我已检查过的内容:
- PDFproducer 报告为“pdftopdf”,PDf 版本报告为 1.3。然而,它似乎是在 MSWord 或 OpenOffice 之类的程序中创建的(但不是 *TEX)。
- 这绝对不是扫描文档,因为字体在所有缩放级别下都清晰可见,并且文本是可选择的。
- 如果我查看安全设置(ctrl-D在 Adobe Acrobat 中),一切都是允许的(例如打印、复制等)。
- 我的搜索选项没有打开“匹配大小写”
- 我无法使用 Acrobat 的“使用 OCR 识别文本”将其转换为可搜索的文档,因为它报告:“此页面包含可呈现的文本“”。
那么,DPF 无法搜索还可能是什么原因呢?如何才能让它可进行文本搜索呢?
答案1
它可能具有自定义字体编码,以与 ASCII 或 UTF-8/Unicode 等既定编码不兼容的方式将代码点分配给字符。
它可能会使各个字符的顺序不一
它可能将字符扁平化为路径
查看 Stack Overflow 问题如何调试 PDF 文件?现已删除PDF 字体编码——为什么我不能从 PDF 中复制文本?
为了使其可进行文本搜索,最好的方法可能是返回原始来源(例如 Word 文档)并使用不同的流程来生成 PDF。或者,您可以尝试将当前 PDF 渲染为位图,然后使用 OCR,但这会很繁琐,并且效果不佳。
答案2
我找到了解决这个问题的方法。我执行了“工具”->“编辑文档文本”,然后对每一页按下 Control-A(全选),然后右键单击并转到属性,将字体更改为其他字体。完成此操作后,文本即可搜索,我也可以复制文本了!
答案3
这可能已经过时了,但复合路径 pdf 中的字符编码问题仍然是今天的问题,我解决了
- 使用 Illustrator 打开无法搜索的文本文件
- 将副本另存为 PDF,并预设最小文件大小
- 然后使用 crobat 打开文件
- 扫描和 OCR > 使用您的设置识别文本
- 现在搜索
⌘ + f
应该可以工作了
测试源
- 复合路径无法搜索的文本文件如果你尝试从这个 pdf 复制粘贴文本,你将会得到垃圾
环境
- sw_vers
macOS 14.4.1 (23E224) x86_64
- Adobe Illustrator
24.0.2
- Adobe Acrobat Pro DC
Continuous Release | Version 2021.007.20091
答案4
尝试了很多方法,但都不起作用。下面是我实际完成的方法:
找一个 PDF 到 Word 的转换器或者类似的东西。(我推荐https://www.online-convert.com/)
按照所有必要的步骤进行转换,但在此之前--
找到“光学字符识别”之类的按钮,然后单击该按钮
转换你的文件,你就应该成功了。