用于识别彩色背景下键入文本的最佳命令行 OCR 软件

用于识别彩色背景下键入文本的最佳命令行 OCR 软件

我需要从图像中提取文本,如下所示:

示例图像

正如您所看到的,文本是键入的而不是手写的。而且,背景是彩色的。

我尝试过 Tesseract OCR,虽然它有时可以工作,但在某些输入上却严重失败。对于上面的示例,它生成“Due CoN aicomrBi em Cela RTL”。

您推荐哪种命令行 OCR 软件?如果 Tesseract 是我最好的选择,我可以转换这些图像以使 Tesseract 更容易识别角色吗?

编辑:根据@MarcusMüller 的建议,我曾经convert -threshold 55%更好地将前景文本与背景分开。结果图像好多了!

二值化图像

唉,Tesseract 还是没用。在这个新图像上,它生成:“Bim KM ioes Bm Meme e Cera”。

因此,这个问题仍然悬而未决。

答案1

如果您对图像进行预处理以提取前景,那么在不均匀背景上的 OCR 性能不佳可能会有所帮助。

有很多技巧可以用于图像分割/前景提取。看来你在门槛上取得了不错的成绩!也许可以尝试一下,或者使用更高级的提取器(例如,来自 openCV),或者训练神经网络来为您进行分割。

另请注意,OCR 可能对亮底上的深色文本效果更好,因此可能需要反转。

相关内容