如何从嵌入子集字体的 PDF 中提取文本

Question 1

问题可能是使用子集字体呈现的字符具有自定义编码 - 字符的数字表示不对应 ASCII、Latin-1 或任何其他常见编码。

看

这意味着没有简单的解决办法。

Answer

问题可能是使用子集字体呈现的字符具有自定义编码 - 字符的数字表示不对应 ASCII、Latin-1 或任何其他常见编码。

看

这意味着没有简单的解决办法。

Question 2

在这种情况下，我使用 Adobe PDF 打印机通过高分辨率 (1200 dpi+)、高质量图像（您可以设置任意设置）打印 PDF。然后，我对图像 PDF 进行 OCR，得到一个可搜索且可操作的 PDF。

当我需要处理数千页的 PDF 时，我会同时打开多个 PDF 窗口，使用多个核心同时处理多个 PDF。这很麻烦，但确实有效。

希望你的文件很小！我曾经对超过 10,000 页的文件做过这样的事（构建代码书）。一点也不好玩。

Answer

在这种情况下，我使用 Adobe PDF 打印机通过高分辨率 (1200 dpi+)、高质量图像（您可以设置任意设置）打印 PDF。然后，我对图像 PDF 进行 OCR，得到一个可搜索且可操作的 PDF。

当我需要处理数千页的 PDF 时，我会同时打开多个 PDF 窗口，使用多个核心同时处理多个 PDF。这很麻烦，但确实有效。

希望你的文件很小！我曾经对超过 10,000 页的文件做过这样的事（构建代码书）。一点也不好玩。

相关内容