非语言文本的 OCR

非语言文本的 OCR

我对使用 OCR 识别不包含单词的文档中的文本感兴趣。相反,它是一个包含一长串“随机”打印字符的文档。我一直在尝试使用 tesseract 扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行普通字符识别?

答案1

是的你可以禁用词典通过定义包含以下内容的配置文件:

load_system_dawg F
load_freq_dawg F

并用命令指定它。

答案2

Tesseract 运行效果不佳,因为它需要文字和自然语言。

对于你的用例,我已经成功戈克

我可以 100% 准确地解码 15k 个随机字符,见https://www.monperrus.net/martin/store-data-paper

相关内容