tesseract ocr:为什么当我将包含计算机数字的 png 图像 ocr 到文本文件时会返回垃圾信息?

tesseract ocr:为什么当我将包含计算机数字的 png 图像 ocr 到文本文件时会返回垃圾信息?

我已经安装了 tesseract ocr 5.3.0(在 Debian 12 上)

我想扫描并对该 png 文件进行 OCR 处理:

在此处输入图片描述

当我执行:

tesseract cp1.png cp1

输出cp1.txt包含意外的垃圾:

y seeseeggegegegenagesseagegs

feésidaedsdcsdasaredadacd

sgsessesesssesagess

B isgsddsadsdecansas

geverdcdessaguce sses

SERRRERRRRSRSRSERRRERSEsesR
an

为什么?

答案1

OCR 依赖于清晰的图像。如果细节对于人类读者来说有点不清楚,OCR 识别字符的难度就会更大。

理想情况下,当扫描或者拍摄文本,应优化图像,使文本和背景之间形成清晰的对比。应尽量减少皱纹和折痕,例如,在摄影时使用垂直照明,或在扫描时使用适度压力。如果有彩色污渍,可以调整图像以去除该颜色的斑点。

之后,图像还可以改进,以用于 OCR。使用免费伊凡视界生成下面的图像,该图像来自问题中的图像。它是通过“检查”处理的,以降低伽玛、增加对比度和增加清晰度,但这种处理可以通过以下方式改进:测试使用OCR工具来优化准确度。

处理后的图像

此外,如果使用立方体广泛地研究类似的数据,可以火车识别特定字体和特定字符的工具。如果一个人正在处理只是例如,使用数值数据立方体可以训练识别仅有的数字、标点和空格,提高准确性。这种训练需要付出一些努力,而且可能只对具有大量数据的长期项目才有价值(例如,将仅使用几种字体的报纸的许多旧刊数字化)。

相关内容