如何判断pdf文件中的隐藏文本图层是否来自OCR？

Question

该文件中唯一的图像是封面和封底，其余的是普通文本，没有隐藏在扫描图像后面。

另一个表明这是排版文本而不是 OCR 的迹象是，特殊字体字符是正确可选择的，尽管它们的字体和它们被排版为例如超集以及 OCR 通常会混淆的图像中的文本。

另外还pdfinfo表明该文件是由 DVIPSONE 创建的，即它是 (La)TeX 文件 -> DVI -> PS，然后由 Windows 的 Distiller 4.05 转换为 PDF 文件。由扫描构建的 PDF 文件不太可能由 DVIPSONE 作为创建者

Answer 1

该文件中唯一的图像是封面和封底，其余的是普通文本，没有隐藏在扫描图像后面。

另一个表明这是排版文本而不是 OCR 的迹象是，特殊字体字符是正确可选择的，尽管它们的字体和它们被排版为例如超集以及 OCR 通常会混淆的图像中的文本。

另外还pdfinfo表明该文件是由 DVIPSONE 创建的，即它是 (La)TeX 文件 -> DVI -> PS，然后由 Windows 的 Distiller 4.05 转换为 PDF 文件。由扫描构建的 PDF 文件不太可能由 DVIPSONE 作为创建者

相关内容