如何提高 Tesseract 的性能?

如何提高 Tesseract 的性能?

从各方面来看,tesseract 都很棒。但是,我的结果却很糟糕。我需要转换(数字的,而不是来自书籍的)只有 png 格式的文本。例如:

   2 3 academics 1 1711
   2 3 Achlmbobelmann 211 191—2
   1 3 Aoqusmono|Food 1 171
   n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
   3 4 allluence 211 I849
   81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£

这是白色底色上的深蓝色文字。原始图像可以找到这里. 我怎样才能做得更好?

答案1

Tesseract 在经过训练后表现会更好: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

在对 5000 多万份 PDF 进行解析的过程中,我们发现了以下策略:

  1. 从 PNG 类型的文件中,尝试识别正在使用的字体。
  2. 使用 TTF 格式的字体(而不是 PNG 图像的位图)训练 Tesseract
  3. 用这个新的训练来运行 tesseract。

我们正在自动执行上述第 2 步,但有在线工具可以识别字体。我建议: http://www.whatfontis.com/

这个 Stack Overflow 问题也可能有帮助。

相关内容