pdftotext 给出乱码输出

Question

不确定这里是否是这种情况，但 PDF 文件甚至可能使用随意的字符编码，仅通过索引（0、1、...）引用嵌入的字形。这足以获得正确的渲染（=视觉外观），但出于实际目的，文本将会丢失。

在这种情况下，使用 PDF 上的 OCR 几乎是获取原始文本的唯一方法。或者猜测每个 PDF 的单字母替换，如果它是真的重要文件。

Answer 1

不确定这里是否是这种情况，但 PDF 文件甚至可能使用随意的字符编码，仅通过索引（0、1、...）引用嵌入的字形。这足以获得正确的渲染（=视觉外观），但出于实际目的，文本将会丢失。

在这种情况下，使用 PDF 上的 OCR 几乎是获取原始文本的唯一方法。或者猜测每个 PDF 的单字母替换，如果它是真的重要文件。

相关内容