我有大约 3000 个单词的小图像,我想将它们转换为文本。我使用安装程序在 Windows 7 计算机上安装了 tesseract,并成功通过 cmd 和 powershell 实现了 OCR 图像。
tesseract.exe imagename.png imagename
生成包含转换后的文本的文本文件。
我得到的结果很糟糕,只有大约 40% 的字符成功转换。我希望改善结果。
有人知道这个命令中可以给出哪些可选配置吗?必需的参数是:
tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]
有人可以描述一下训练过程吗?我发现很难理解文档。我知道我的文本是 Times New Roman 格式的。我需要对它进行 TNR 训练吗?或者它已经内置了,或者是否可以下载允许 Tesseract 识别它的文件?
答案1
删除结果的一种方法是预处理它们,例如删除任何倾斜并对其进行阈值处理。您可以使用开放式 CV。稍后您可以训练文本