tesseract

我如何让 tesseract-ocr v5 找到 eng.traineddata 文件?
tesseract

我如何让 tesseract-ocr v5 找到 eng.traineddata 文件?

Ubuntu 22.04.3 LTS tesseract 5.3.2 XSane 0.999 YAGF 0.9.5 Epson Workforce WF-4835 打印机/扫描仪 此设置在一定程度上协同工作。单击扫描YAGF 中的按钮会导致 XSane 启动,扫描扫描仪中的文档,并在 YAGF 的左侧窗口中显示扫描结果。但是当我单击认出YAGF 中的按钮,右侧窗口中不会出现任何文本,并且会出现一条错误消息,提示eng.traineddata找不到该文件。 该位置定义如下: 在里面YAGF 设置>OCR 和语言,Tesseract 数据文件路径...

Admin

Tesseract 给出错误
tesseract

Tesseract 给出错误

今天早上我尝试使用tesseract并收到以下错误消息: $ tesseract --list-langs Error in pixReadMemTiff: function not present Error in pixReadMem: tiff: no pix returned Error in pixaGenerateFontFromString: pix not made Error in bmfCreate: font pixa not made List of available languages (6): eng fra ita mlt ...

Admin

Python 代码在 Linux 上运行,在 Windows 上发生错误(反斜杠)
tesseract

Python 代码在 Linux 上运行,在 Windows 上发生错误(反斜杠)

所以我有一个个人项目,我知道它效率很低,但可以工作。我正在编写一个执行非 pip 版本的 tesseract(在 Linux 中安装的 apt)的 Python 代码。我的代码在 Linux 上运行良好,但在 Windows 上出现此错误: FileNotFoundError:[WinError 2] 系统找不到指定的文件:“DRIVE_LETTER:\PROJECT_FOLDER\FOLDER/FILE.txt” 我正在使用 Atom IDE,对 Python 还很陌生,所以如果有人能指出我的愚蠢错误,我...

Admin

双页布局的 OCR
tesseract

双页布局的 OCR

我正在尝试对具有两页布局的 PDF 进行 OCR - 在 PDF 的横向页面中,左半部分是一页(纵向),右半部分是下一页(纵向)。有时布局会弄乱 Tesseract。我可以告诉它有关布局的信息,或者在通过 Tesseract 运行之前有效地拼接原始 PDF 吗? ...

Admin

为什么 tesseract 将 ^L 附加到输出
tesseract

为什么 tesseract 将 ^L 附加到输出

我正在使用 tesseract 对图像中的某些文本进行 OCR,例如这个: 我的 Ubuntu 20.04 上有此版本的 tesseract: $ tesseract --version tesseract 4.1.1 leptonica-1.79.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 2.0.3) : libpng 1.6.37 : libtiff 4.1.0 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.1 Found AVX2 Found AVX...

Admin

带有“fl”和“fi”字符的 Tesseract
tesseract

带有“fl”和“fi”字符的 Tesseract

我昨天开始使用 tesseract。它工作得很好,但显然我的原始文本(在扫描图像中)有将 fi 组合成一个字符并将 fl 组合成另一个字符的字符。而 tesseract 会将它们转换为特殊字符。我怎样才能让它生成“f i”或“f l”呢? ...

Admin

从源构建 tesseract 时出错
tesseract

从源构建 tesseract 时出错

我在尝试构建 tesseract 时遇到了错误。从日志输出来看,我怀疑是某些 python2 代码导致了问题。我的系统 python 是 3.7。不知道如何解决,任何提示都值得赞赏。 环境:Ubuntu 16.4 lts 重现步骤:(工作目录是tessearact 克隆的git repo) make clean git pull ./autogen.sh ./configure --enable-debug make 回溯的相关部分: make[2]: Entering directory '/ho...

Admin

如何编写 bash 脚本对目录中的所有文件运行相同的命令
tesseract

如何编写 bash 脚本对目录中的所有文件运行相同的命令

我想要对目录中的所有文件运行此命令。 tesseract /home/kong/Documents/input/248.jpg stdout --psm 1 --oem 1 --dpi 300 tsv >/home/kong/Documents/input/ocr_output/input/248.tsv 输入和输出应该具有相同的数字,如248.jpg和248.tsv。我尝试编写一个python脚本,但它导致了分隔符问题。 有人能帮我吗?我是 bash 新手。 这是我写的 Python 脚本 comm = shlex.split(comma...

Admin

Tesseract -tessdata-dir 选项在 ubuntu 18.04 中不起作用
tesseract

Tesseract -tessdata-dir 选项在 ubuntu 18.04 中不起作用

我正在尝试使用 tesseract 中的最佳模型。但是,我收到以下错误: tesseract sample.jpg stdout --tessdata-dir tessdata/ Error opening data file tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory. Failed loading language 'eng' Tesseract couldn'...

Admin

Ubuntu 18.04 安装 tesseract 时出错
tesseract

Ubuntu 18.04 安装 tesseract 时出错

我已经安装了 Ubuntu 18.04。 我已经使用安装了 tesseractsudo apt-get install tesseract-ocr 当我输入: tesseract -v 我遇到了一个错误: tesseract: symbol lookup error: /usr/lib/x86_64-linux-gnu/libtesseract.so.4: undefined symbol: pixaDisplayTiledInColumns 以下是输出apt-cache policy tesseract-ocr: Installed: 4...

Admin

如何让 Tesseract OCR 识别电表上的大数字?
tesseract

如何让 Tesseract OCR 识别电表上的大数字?

我想使用 RPi 上的 OCR 程序来识别电表照片中的数字。这些数字很大,对我来说非常明显,但 Tesseract 似乎根本无法识别它们 - 它最多只能检测到一些随机的错误数字。 我尝试过裁剪数字并单独进行 OCR,但没用。我尝试过其他几个 OCR 程序,效果也不太好。 请问您能否就如何让 Tesseract 正确识别下图中的 2 个大数字提供任何建议?请注意,原始图片约为2.5MB - 此副本较小,以适合本网站。 ...

Admin

ocrfeeder 没有检测到任何东西
tesseract

ocrfeeder 没有检测到任何东西

当我尝试检测 jpeg 上的文本时,它会正确显示所有怀疑是文本和图像的区域,但是当我将其导出到 ODT 时,它只会创建一个带有空文本和图像框的 ODT。 我必须以tesseract某种方式进行配置吗? (我使用 Ubuntu 14.10 32 位) ...

Admin

什么程序适合使扫描的 PDF 文件可搜索?
tesseract

什么程序适合使扫描的 PDF 文件可搜索?

我希望能够将纸质文档扫描为 PDF 文件并使文本可搜索。我相信 Tesseract 程序可以实现这一点,但不知道如何开始,也不知道哪个程序最好用。 有人成功制作出可搜索的 PDF 文件吗? ...

Admin

Ubuntu 的 Aletheia 等效版本
tesseract

Ubuntu 的 Aletheia 等效版本

有没有与 Windows Aletheia 相当的 ubuntu-linux 程序,一个用于分析字体、将点导出到 xml 的程序?我主要会用它进行 OCR 和训练 tesseract。我知道 ImageMagick 可以覆盖图像清理的很多方面。我需要一个用于字符替换和其他功能的工具,就像 Aletheia 一样 – ...

Admin

Qt-box-editor 可以用于 tesseract 4.0 吗?
tesseract

Qt-box-editor 可以用于 tesseract 4.0 吗?

我正在使用 tesseract 4.0 进行字符识别。许多博客都写到 Qt-box-editor 可以与 tesseract 3.x 一起使用。我的问题是:- Qt-box-editor 可以与 tesseract 4.0 一起使用吗? ...

Admin