如果有人能帮忙我会很感激
我尝试通过 pdftotext 从多个 pdf 文件中输出文本。不幸的是,我的输出结果总是像这样:“* * * $ * # 2 %
最初我以为问题在于字体是 Arial,所以我安装了 Arial 字体,但没有任何变化。使用不同的编码选项也没有带来任何更好的结果。在安装 Arial 字体之前,evince 无法在 pdf 文件中显示文本,但安装后 pdf 可以正常显示,所以我认为这是主要问题,但显然不是。
我正在使用 Centos 6.7
提前感谢您的任何反馈。
答案1
不确定这里是否是这种情况,但 PDF 文件甚至可能使用随意的字符编码,仅通过索引(0、1、...)引用嵌入的字形。这足以获得正确的渲染(=视觉外观),但出于实际目的,文本将会丢失。
在这种情况下,使用 PDF 上的 OCR 几乎是获取原始文本的唯一方法。或者猜测每个 PDF 的单字母替换,如果它是真的重要文件。