如何从嵌入子集字体的 PDF 中提取文本

如何从嵌入子集字体的 PDF 中提取文本

閱讀文本pdf对于普通的嵌入字体文件来说,它工作正常,但对于嵌入子集字体来说,它却失败了。有没有什么解决方法可以解决这个问题?

答案1

问题可能是使用子集字体呈现的字符具有自定义编码 - 字符的数字表示不对应 ASCII、Latin-1 或任何其他常见编码。

这意味着没有简单的解决办法。

答案2

在这种情况下,我使用 Adob​​e PDF 打印机通过高分辨率 (1200 dpi+)、高质量图像(您可以设置任意设置)打印 PDF。然后,我对图像 PDF 进行 OCR,得到一个可搜索且可操作的 PDF。

当我需要处理数千页的 PDF 时,我会同时打开多个 PDF 窗口,使用多个核心同时处理多个 PDF。这很麻烦,但确实有效。

希望你的文件很小!我曾经对超过 10,000 页的文件做过这样的事(构建代码书)。一点也不好玩。

相关内容