我对使用 OCR 识别不包含单词的文档中的文本感兴趣。相反,它是一个包含一长串“随机”打印字符的文档。我一直在尝试使用 tesseract 扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行普通字符识别?
答案1
答案2
Tesseract 运行效果不佳,因为它需要文字和自然语言。
对于你的用例,我已经成功戈克。
我可以 100% 准确地解码 15k 个随机字符,见https://www.monperrus.net/martin/store-data-paper
我对使用 OCR 识别不包含单词的文档中的文本感兴趣。相反,它是一个包含一长串“随机”打印字符的文档。我一直在尝试使用 tesseract 扫描文本,但它似乎在寻找单词。有没有办法告诉 tesseract 只进行普通字符识别?
Tesseract 运行效果不佳,因为它需要文字和自然语言。
对于你的用例,我已经成功戈克。
我可以 100% 准确地解码 15k 个随机字符,见https://www.monperrus.net/martin/store-data-paper