到目前为止,我的祖父母都是手写他们的财务记录,但他们的非草书笔迹比下面的图片更整洁、更清晰。他们扫描每一页后,Excel 2019 能否自动立即将扫描的图像转换为 Excel 电子表格?即使 OCR 识别文本和数字,排列每个文本和数字也会花费太多时间。
这是第二张图片的来源。2016 年 Reddit 上的这篇帖子没有任何帮助。
答案1
我必须同意music2myear 的回答。
使用任何可以访问的计算机,您都无法将手写记录转换为 Excel。
至少有三项艰巨的任务:
- 区分“内容”和非内容。
- 识别布局并将其转换为单元格位置。
- 识别手写字符并将其翻译为文本。
消费者软件和在线服务已经存在,它们可以很好地将干净的表格格式的机器打印文本转换为电子表格文件。但即使是最好的软件和在线服务也远非完美。这只是根据文本的位置将文本分配到正确的单元格的任务。
当你看到这些图像时,你的大脑非常善于分辨什么是“预印形式”,什么是内容,什么是噪音,什么是不相关的人为标记。你可以根据上下文识别事物的排列方式以及什么与什么相符。对于计算机来说,所有不是背景颜色的东西都是“东西”。弄清楚其中哪些对你很重要,哪些可能是需要翻译的某种字符是极其困难的。如果内容与预印行重叠,就会出现计算机无法轻松处理的断点和缺失数据。
以您的图片为例。第一张图片是无用功。大部分图片忽略了线条和布局。您还需要完成额外的任务,即从内容中分离和移除预印网格。在第二张图片中,内容大部分在网格的范围内,但有很多杂散标记(斜线、下划线等)需要清理。
不过,最难的部分是识别手写内容并将其转换为计算机文本。对于图 1,即使是人类也很难弄清楚其中的一些内容,而且需要根据上下文和对单词的熟悉程度进行大量猜测。在图 2 中,大多数数字还不错,但文本会是一个问题。
如果您祖父母的记录不是草书,而且整洁、清晰、一致,并且与机器打印类似,OCR 可能会“合理”地处理它。但您仍然需要进行大量清理工作。
从另一个角度来看,美国邮政局拥有最先进的手写识别技术,它利用这种技术读取邮件上的地址,以便用自动化设备对邮件进行分类。他们之所以能做到这一点,是因为地址具有规定的结构和格式,而且他们提前知道了所有可能的地址。其目的更多的是将手写地址与可行的候选地址进行匹配,而不是确保每个字符都正确。
存在大量冗余。如果你只能解读一半的字符,那么可能只有一个或几个匹配项。即便如此,很大一部分仍需要人工干预。当人工干预完成后,邮件到达邮递员手中进行投递,邮递员知道他们所走路线上的地址和姓名,他们会检查所有信息以确保地址没有被误解。
这就是手写 OCR 的水平,它采用了最先进的技术,并且可进行极其可控的比较范围。您的任务需要翻译每个字符。您没有一份所有可能合法出现在这些记录中的单词的主列表(除了整个语言的词典)。OCR 需要进行大量清理,因此,直接读取记录并将其输入 Excel 会更快。这不是一项不寻常的任务,专业的数据输入人员可以非常快速且廉价地完成它。
答案2
有了这个,你就不能了。
或者,您可以尝试使用执行此操作的工具“OCR”(即“光学字符识别”),但是这些工具基于对所表示的字符做出最佳猜测的算法,并且基于您在此处输入的条件,您不太可能获得满意的结果。
基本上,即使使用当今消费者和企业市场上最好的工具,您最终仍然必须手动更正或输入几乎所有的数据。
计算机可能在不断改进,但在解释此类信息方面,它们仍然远远不如人眼和大脑,至少在你我可用的计算机和软件水平上是如此。