您好,我有 tiff 格式的图片书页,我想从这些书页中提取文本到文本文件中,但我无法获得所需的文本,因为图片中的文本是草书,因此很难将它们转换为文本,请有人帮我找到一个解决方案,将它们转换为文本。我已经在网上尝试了很多解决方案,但都没有奏效,所以请给我一些能够帮助我的资源。
答案1
我建议首先看看 Google 是否已经为您扫描了这本书。
答案2
从逻辑上讲,使用已知字体执行 OCR 应该是一件容易的事。但是我还没有听说过有哪个软件专门针对这个特定问题。大多数 OCR 程序都有通用算法来识别任何(或多种)字体。
不幸的是,识别质量在某种程度上与你为软件支付的金额成正比。专有软件似乎能产生更好的结果。而免费软件,无论其开发人员如何吹嘘,都经常失败并且质量低下。
因此,如果您有兴趣获得良好的结果,那么请准备好为此付出高昂的代价。
顺便一提,此主题在 SO 上,涵盖了与您的问题完全相同的问题。Andrew Cash 的回答列出了一些不错的程序。
我个人推荐 ABBYY Lingvo,因为我自己用过,而且效果还不错。
祝你好运