我在 Ubuntu 16.04 系统上有一个多页扫描的 300 dpi PDF 文件。
当我运行以下命令时:
pdfocr -t -l swe -i *.pdf -o newfile.pdf
它会生成一个完美的 OCR 读取文件。无论字体大小和形状如何,每个单词都可以搜索。
但是,该过程的下一步是将此 PDF 转换为 PDF/A-1b。此操作由 Ghostscript 9.18 运行以下命令完成:
gs -dPDFA -dBATCH -dNOPAUSE -dUseCIEColor -sProcessColorModel=DeviceCMYK -sDEVICE=pdfwrite -sPDFACompatibilityPolicy=1 -sOutputFile=konverterade/$i $i
生成的文件被验证为正确的 PDF/A-1b 文件,但文件的可搜索性已严重改变。看来 Ghostscript 正在破坏 OCR。
有人知道发生了什么事吗?
提前谢谢了。
/保罗