答案1
非常小的数字在强光源下更容易读取。一些硬件设备(例如闪存驱动器和电源适配器)的塑料外壳上印有非常小的文字,在柔和的灯光下很难读取,但在强光源下很容易读取。
如果这不起作用,您可以在 GIMP 图像编辑器中打开要扫描的图像,并在进行 OCR 之前增强亮度和对比度。GIMP 图像编辑器在默认的 Ubuntu 存储库中可用。
使用位于工具箱左上角的矩形选择工具选择图像中包含要扫描的数字的矩形区域。
从 GIMP 菜单中选择颜色->亮度-对比度。
移动亮度和对比度滑块以提高数字的可读性。
确保位于工具箱底部中心的前景色为黑色,这是默认颜色。
使用油漆桶填充工具将数字的背景填充为黑色,这样浅色数字在黑色背景下会呈现出更高的对比度。
如有必要,选择图像中另一个包含要扫描的数字的矩形区域,然后重复步骤 2-5。
编辑完成后,使用以下任一方式导出图像文件->覆盖或者文件->导出为…
答案2
我基本上也在尝试用我的煤气表做同样的事情 ;-)。对我有用的是:
- 反转(这样你就得到了白底黑字的数字)
- 缩小数字,使数字高约 30 像素
- 增加对比度
显然,tesseract 并不期望文本具有很大的字体尺寸。