有趣的 OCR 情况

2024-6-17 • tag-icon

我在 Ubuntu 16.04 系统上有一个多页扫描的 300 dpi PDF 文件。

当我运行以下命令时：

pdfocr -t -l swe -i *.pdf -o newfile.pdf

它会生成一个完美的 OCR 读取文件。无论字体大小和形状如何，每个单词都可以搜索。

但是，该过程的下一步是将此 PDF 转换为 PDF/A-1b。此操作由 Ghostscript 9.18 运行以下命令完成：

gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i

生成的文件被验证为正确的 PDF/A-1b 文件，但文件的可搜索性已严重改变。看来 Ghostscript 正在破坏 OCR。

有人知道发生了什么事吗？

提前谢谢了。

/保罗

相关内容