閱讀文本的pdf对于普通的嵌入字体文件来说,它工作正常,但对于嵌入子集字体来说,它却失败了。有没有什么解决方法可以解决这个问题?
答案1
问题可能是使用子集字体呈现的字符具有自定义编码 - 字符的数字表示不对应 ASCII、Latin-1 或任何其他常见编码。
看
这意味着没有简单的解决办法。
答案2
在这种情况下,我使用 Adobe PDF 打印机通过高分辨率 (1200 dpi+)、高质量图像(您可以设置任意设置)打印 PDF。然后,我对图像 PDF 进行 OCR,得到一个可搜索且可操作的 PDF。
当我需要处理数千页的 PDF 时,我会同时打开多个 PDF 窗口,使用多个核心同时处理多个 PDF。这很麻烦,但确实有效。
希望你的文件很小!我曾经对超过 10,000 页的文件做过这样的事(构建代码书)。一点也不好玩。