针对英文字体训练 Tesseract-OCR

2024-6-12 • tag-icon

我有大约 3000 个单词的小图像，我想将它们转换为文本。我使用安装程序在 Windows 7 计算机上安装了 tesseract，并成功通过 cmd 和 powershell 实现了 OCR 图像。

 tesseract.exe imagename.png imagename

生成包含转换后的文本的文本文件。

我得到的结果很糟糕，只有大约 40% 的字符成功转换。我希望改善结果。

有人知道这个命令中可以给出哪些可选配置吗？必需的参数是：

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

有人可以描述一下训练过程吗？我发现很难理解文档。我知道我的文本是 Times New Roman 格式的。我需要对它进行 TNR 训练吗？或者它已经内置了，或者是否可以下载允许 Tesseract 识别它的文件？

删除结果的一种方法是预处理它们，例如删除任何倾斜并对其进行阈值处理。您可以使用开放式 CV。稍后您可以训练文本

相关内容