当我尝试检测 jpeg 上的文本时,它会正确显示所有怀疑是文本和图像的区域,但是当我将其导出到 ODT 时,它只会创建一个带有空文本和图像框的 ODT。
我必须以tesseract
某种方式进行配置吗?
(我使用 Ubuntu 14.10 32 位)
答案1
尝试这个:
打开ocrfeeder程序。
编辑引擎:单击Tools
-OCR Engine
选择Tesseract engine
并点击Edit
其中说arguments engine
改变了这个脚本:
$IMAGE $FILE -l eng -psm 3 > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
要导出文档,请单击File
-Export
选择所需的输出格式。
如果文档中有图片,我建议使用html
格式文本。
如果只有文本,最好使用纯文本格式txt
。