测试源

测试源

我有一篇 PDF 文章(不是我写的)。但是,我无法在 PDF 中搜索文本。我试过的所有 PDF 查看器都无法找到明显包含其中的单词。我试过使用 Adob​​e Acrobat Professional 8、SumatraPDF 和 Google Chrome。

我如何才能知道为什么该文档无法搜索?

我已检查过的内容:

  • PDFproducer 报告为“pdftopdf”,PDf 版本报告为 1.3。然而,它似乎是在 MSWord 或 OpenOffice 之类的程序中创建的(但不是 *TEX)。
  • 这绝对不是扫描文档,因为字体在所有缩放级别下都清晰可见,并且文本是可选择的。
  • 如果我查看安全设置(ctrl-D在 Adob​​e Acrobat 中),一切都是允许的(例如打印、复制等)。
  • 我的搜索选项没有打开“匹配大小写”
  • 我无法使用 Acrobat 的“使用 OCR 识别文本”将其转换为可搜索的文档,因为它报告:“此页面包含可呈现的文本“”。

那么,DPF 无法搜索还可能是什么原因呢?如何才能让它可进行文本搜索呢?

答案1

  • 它可能具有自定义字体编码,以与 ASCII 或 UTF-8/Unicode 等既定编码不兼容的方式将代码点分配给字符。

  • 它可能会使各个字符的顺序不一

  • 它可能将字符扁平化为路径

查看 Stack Overflow 问题如何调试 PDF 文件?现已删除PDF 字体编码——为什么我不能从 PDF 中复制文本?

为了使其可进行文本搜索,最好的方法可能是返回原始来源(例如 Word 文档)并使用不同的流程来生成 PDF。或者,您可以尝试将当前 PDF 渲染为位图,然后使用 OCR,但这会很繁琐,并且效果不佳。

答案2

我找到了解决这个问题的方法。我执行了“工具”->“编辑文档文本”,然后对每一页按下 Control-A(全选),然后右键单击并转到属性,将字体更改为其他字体。完成此操作后,文本即可搜索,我也可以复制文本了!

答案3

这可能已经过时了,但复合路径 pdf 中的字符编码问题仍然是今天的问题,我解决了

  • 使用 Illustrator 打开无法搜索的文本文件
  • 将副本另存为 PDF,并预设最小文件大小
  • 然后使用 crobat 打开文件
  • 扫描和 OCR > 使用您的设置识别文本
  • 现在搜索⌘ + f应该可以工作了

测试源

环境

  • sw_versmacOS 14.4.1 (23E224) x86_64
  • Adobe Illustrator24.0.2
  • Adobe Acrobat Pro DCContinuous Release | Version 2021.007.20091

答案4

尝试了很多方法,但都不起作用。下面是我实际完成的方法:

  1. 找一个 PDF 到 Word 的转换器或者类似的东西。(我推荐https://www.online-convert.com/

  2. 按照所有必要的步骤进行转换,但在此之前--

  3. 找到“光学字符识别”之类的按钮,然后单击该按钮

  4. 转换你的文件,你就应该成功了。

相关内容