答案1
OCR 依赖于清晰的图像。如果细节对于人类读者来说有点不清楚,OCR 识别字符的难度就会更大。
理想情况下,当扫描或者拍摄文本,应优化图像,使文本和背景之间形成清晰的对比。应尽量减少皱纹和折痕,例如,在摄影时使用垂直照明,或在扫描时使用适度压力。如果有彩色污渍,可以调整图像以去除该颜色的斑点。
之后,图像还可以改进,以用于 OCR。使用免费伊凡视界生成下面的图像,该图像来自问题中的图像。它是通过“检查”处理的,以降低伽玛、增加对比度和增加清晰度,但这种处理可以通过以下方式改进:测试使用OCR工具来优化准确度。
此外,如果使用立方体广泛地研究类似的数据,可以火车识别特定字体和特定字符的工具。如果一个人正在处理只是例如,使用数值数据立方体可以训练识别仅有的数字、标点和空格,提高准确性。这种训练需要付出一些努力,而且可能只对具有大量数据的长期项目才有价值(例如,将仅使用几种字体的报纸的许多旧刊数字化)。