如何判断pdf文件中的隐藏文本图层是否来自OCR?

如何判断pdf文件中的隐藏文本图层是否来自OCR?

我见过一些 OCR 后的 pdf 文件具有非常准确的文本(无论是在识别率方面,还是在文本与图像的对齐方面)。

哪些 Unix/Linux 工具可以帮助我判断 pdf 文件中的隐藏文本层是否来自 OCR?

答案1

该文件中唯一的图像是封面和封底,其余的是普通文本,没有隐藏在扫描图像后面。

另一个表明这是排版文本而不是 OCR 的迹象是,特殊字体字符是正确可选择的,尽管它们的字体和它们被排版为例如超集以及 OCR 通常会混淆的图像中的文本。

另外还pdfinfo表明该文件是由 DVIPSONE 创建的,即它是 (La)TeX 文件 -> DVI -> PS,然后由 Windows 的 Distiller 4.05 转换为 PDF 文件。由扫描构建的 PDF 文件不太可能由 DVIPSONE 作为创建者

相关内容