如何提高 Tesseract 的性能？

2024-6-3 • tag-icon

command-line image-processing ocr tesseract

如何提高 Tesseract 的性能？

从各方面来看，tesseract 都很棒。但是，我的结果却很糟糕。我需要转换（数字的，而不是来自书籍的）只有 png 格式的文本。例如：

   2 3 academics 1 1711
   2 3 Achlmbobelmann 211 191—2
   1 3 Aoqusmono|Food 1 171
   n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
   3 4 allluence 211 I849
   81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£

这是白色底色上的深蓝色文字。原始图像可以找到这里. 我怎样才能做得更好？

答案1

Tesseract 在经过训练后表现会更好： https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在对 5000 多万份 PDF 进行解析的过程中，我们发现了以下策略：

从 PNG 类型的文件中，尝试识别正在使用的字体。
使用 TTF 格式的字体（而不是 PNG 图像的位图）训练 Tesseract
用这个新的训练来运行 tesseract。

我们正在自动执行上述第 2 步，但有在线工具可以识别字体。我建议： http://www.whatfontis.com/

这个 Stack Overflow 问题也可能有帮助。

相关内容