pdftotext 将空格转换为百分比,将破折号转换为六

pdftotext 将空格转换为百分比,将破折号转换为六

pdftotext 以某种方式将特定 pdf 的所有空格字符(“ ”)转换为百分号(“%”),并将所有破折号(“ - ”)转换为六(“6”)。

知道如何防止这种行为吗?或者如何诊断?

不幸的是,我目前无法分享 PDF。这可能会让回答这个问题变得太难。但也许有人可以根据这些奇怪的字符替换做出很好的猜测。

pdftotext 版本 0.26.5

答案1

猜测:这个 PDF 使用了一种奇怪的字体,它实际上包含空格(通常,空格是通过定位字符来完成的),并且具有特殊形式的破折号。这两个字形在特殊字体中占据了其他字体中%和的两个位置6

pdftext对此一无所知,它只是看到“将此字体的字形放在此处”(因为 PDF 文件就是这样的),所以它错误地认为它是文本。

诊断:使用软件包mutool中的mupdf工具(或其他工具)解压流,在必要时可以处理大文件的文本编辑器(例如 emacs)中打开结果,查看页面的呈现方式。如果您想了解有关 PDF 呈现方式的更多详细信息,请 Google 搜索 PDF 规范。

或者:从 PDF 中提取字体,查看其中一种字体是否具有所述的两个字形。

相关内容