从图像中提取文本

从图像中提取文本

我正在寻找可以识别图像中文本的软件。我尝试了所有这里提到的工具(gocr、fuzzyocr、libhocr0、ocrad、ocrfeeder、ocropus、tesseract-ocr、cuneiform)。我的输入是一张打印文档的照片,因此不是手写,只是打印的字母。在所有工具中,tesseract-ocr 在我的测试中是最准确的,但它仍然会产生很多错误。因此,将文档扫描到某个图像文件,然后继续对其进行索引或执行某些 NLP,遗憾的是不是一个选项。错误率太高了。

那么,考虑到上述帖子的年代,有没有更好的工具可以从图像或照片中提取文本?

编辑1:

我所说的“包含文本的图像”是指,我有一个 PNG/JPG/BMP 文件作为源,并且我想提取其中的像素化文本,并将 ASCII/UTF-8 文本作为结果和输出。

相关内容