执行 OCR 时指定字体

执行 OCR 时指定字体

我有一个文件夹,里面装满了需要转换成文本的图片。每张图片都包含一行数字和空格。这些图片是计算机生成的(即不是带有额外伪影的扫描图)。图片被裁剪,只剩下数字,四周有大约 4 个像素的填充。

我尝试过以下每一个方法:

tesseract temp.png stdout -psm 6
tesseract temp.png stdout -psm 6 nobatch digits

两者都无法 100% 准确地识别文本。字体将 6 放置得比其他数字略高,因此这可能是导致准确率较低的原因。

由于这些图像是计算机生成的,所以每个数字看起来都一模一样。那么,有没有办法可以剪裁这些数字并将其输入到某个东西中,这样当 OCR 软件(或任何类型的软件)看到确切的形状时,它就知道这是那个数字?

相关内容