pdftotext 以某种方式将特定 pdf 的所有空格字符(“ ”)转换为百分号(“%”),并将所有破折号(“ - ”)转换为六(“6”)。
知道如何防止这种行为吗?或者如何诊断?
不幸的是,我目前无法分享 PDF。这可能会让回答这个问题变得太难。但也许有人可以根据这些奇怪的字符替换做出很好的猜测。
pdftotext 版本 0.26.5
答案1
猜测:这个 PDF 使用了一种奇怪的字体,它实际上包含空格(通常,空格是通过定位字符来完成的),并且具有特殊形式的破折号。这两个字形在特殊字体中占据了其他字体中%
和的两个位置6
。
pdftext
对此一无所知,它只是看到“将此字体的字形放在此处”(因为 PDF 文件就是这样的),所以它错误地认为它是文本。
诊断:使用软件包mutool
中的mupdf
工具(或其他工具)解压流,在必要时可以处理大文件的文本编辑器(例如 emacs)中打开结果,查看页面的呈现方式。如果您想了解有关 PDF 呈现方式的更多详细信息,请 Google 搜索 PDF 规范。
或者:从 PDF 中提取字体,查看其中一种字体是否具有所述的两个字形。