测试源

2024-6-14 • tag-icon

测试源

我有一篇 PDF 文章（不是我写的）。但是，我无法在 PDF 中搜索文本。我试过的所有 PDF 查看器都无法找到明显包含其中的单词。我试过使用 Adobe Acrobat Professional 8、SumatraPDF 和 Google Chrome。

我如何才能知道为什么该文档无法搜索？

我已检查过的内容：

PDFproducer 报告为“pdftopdf”，PDf 版本报告为 1.3。然而，它似乎是在 MSWord 或 OpenOffice 之类的程序中创建的（但不是 *TEX）。
这绝对不是扫描文档，因为字体在所有缩放级别下都清晰可见，并且文本是可选择的。
如果我查看安全设置（ctrl-D在 Adobe Acrobat 中），一切都是允许的（例如打印、复制等）。
我的搜索选项没有打开“匹配大小写”
我无法使用 Acrobat 的“使用 OCR 识别文本”将其转换为可搜索的文档，因为它报告：“此页面包含可呈现的文本“”。

那么，DPF 无法搜索还可能是什么原因呢？如何才能让它可进行文本搜索呢？

答案1

它可能具有自定义字体编码，以与 ASCII 或 UTF-8/Unicode 等既定编码不兼容的方式将代码点分配给字符。
它可能会使各个字符的顺序不一
它可能将字符扁平化为路径

查看 Stack Overflow 问题如何调试 PDF 文件？现已删除PDF 字体编码——为什么我不能从 PDF 中复制文本？

为了使其可进行文本搜索，最好的方法可能是返回原始来源（例如 Word 文档）并使用不同的流程来生成 PDF。或者，您可以尝试将当前 PDF 渲染为位图，然后使用 OCR，但这会很繁琐，并且效果不佳。

答案2

我找到了解决这个问题的方法。我执行了“工具”->“编辑文档文本”，然后对每一页按下 Control-A（全选），然后右键单击并转到属性，将字体更改为其他字体。完成此操作后，文本即可搜索，我也可以复制文本了！

答案3

这可能已经过时了，但复合路径 pdf 中的字符编码问题仍然是今天的问题，我解决了

使用 Illustrator 打开无法搜索的文本文件
将副本另存为 PDF，并预设最小文件大小
然后使用 crobat 打开文件
扫描和 OCR > 使用您的设置识别文本
现在搜索⌘ + f应该可以工作了

测试源

复合路径无法搜索的文本文件如果你尝试从这个 pdf 复制粘贴文本，你将会得到垃圾

环境

sw_versmacOS 14.4.1 (23E224) x86_64
Adobe Illustrator24.0.2
Adobe Acrobat Pro DCContinuous Release | Version 2021.007.20091

答案4

尝试了很多方法，但都不起作用。下面是我实际完成的方法：

找一个 PDF 到 Word 的转换器或者类似的东西。（我推荐https://www.online-convert.com/）
按照所有必要的步骤进行转换，但在此之前--
找到“光学字符识别”之类的按钮，然后单击该按钮
转换你的文件，你就应该成功了。

相关内容