从各方面来看,tesseract 都很棒。但是,我的结果却很糟糕。我需要转换(数字的,而不是来自书籍的)只有 png 格式的文本。例如:
2 3 academics 1 1711
2 3 Achlmbobelmann 211 191—2
1 3 Aoqusmono|Food 1 171
n 5 AFD.seeAgem:eFIan§asedeDével 1 (muessmm)
3 4 allluence 211 I849
81 5 Afnca 33:21 9.lZ3l.$50Z55&9l.93-4.9898100.II8r2D.IZ§£
这是白色底色上的深蓝色文字。原始图像可以找到这里. 我怎样才能做得更好?
答案1
Tesseract 在经过训练后表现会更好: https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
在对 5000 多万份 PDF 进行解析的过程中,我们发现了以下策略:
- 从 PNG 类型的文件中,尝试识别正在使用的字体。
- 使用 TTF 格式的字体(而不是 PNG 图像的位图)训练 Tesseract
- 用这个新的训练来运行 tesseract。
我们正在自动执行上述第 2 步,但有在线工具可以识别字体。我建议: http://www.whatfontis.com/
这个 Stack Overflow 问题也可能有帮助。