tesseract-ocr

仅从第一页 TIFF 获取 hocr 提取的输出
tesseract-ocr

仅从第一页 TIFF 获取 hocr 提取的输出

[示例图片] 我在下面给出的代码中寻求您的指导。我正在运行此代码以将文本从多页 TIFF 提取到 hocr 格式。我从 TIFF 的第一页获得输出,但其余页面被省略。 # Python program to extract text from all the images in a folder # storing the text in corresponding files in a different folder # This is for hocr output, but there is error of getting only 1 page ...

Admin

ImageMagick 显示 WxH+x+y 窗口
tesseract-ocr

ImageMagick 显示 WxH+x+y 窗口

在 ImageMagick 的显示中,如果我按“c”并开始拖动裁剪框,则左上角会出现一个小框,显示裁剪框的 WxH+x+y。 除了截取屏幕截图并在图像上运行 tesseract-ocr 或类似程序之外,还有什么方法可以在 bash 中以编程方式访问数据? ...

Admin

如何将多幅图像中的文本提取到一个文本文件中?
tesseract-ocr

如何将多幅图像中的文本提取到一个文本文件中?

我已经安装了所有东西,我使用在线工具将 PDF 文件翻录为 JPG,问题是该工具将 PDF 的每一页都放入单独的图像中,现在有 500 张左右。有没有办法只选择一个文件夹,让 tesseract 将所有图像的所有文本放入一个文本或 word 文件中? 据我了解,PDF 不能与 tesseract 一起使用,最简单的方法是将 PDF 转换为 JPEG,或者有更好的解决方法? 我在 Windows PC 上使用 Tesseract ...

Admin

tesseract - 构建和安装(`configure`、`make`、`make install`...)tesseract 版本 3(tesseract-ocr-3.XX.XX)
tesseract-ocr

tesseract - 构建和安装(`configure`、`make`、`make install`...)tesseract 版本 3(tesseract-ocr-3.XX.XX)

问题: 我正在尝试构建和安装(,,configure... )makemake install立方体版本 3(tesseract-ocr-3.02.02)在 Ubuntu Server 20.04 LTS 上出现以下错误... 构建并安装命令... tar -zxvf tesseract-ocr-3.02.02.tar.gz cd ./tesseract-ocr-3.02.02 ./autogen.sh ./configure make -j 4 && make install ldconfig 错误输出... [...] -I../vie...

Admin

对多个文件执行 OCR 和重命名
tesseract-ocr

对多个文件执行 OCR 和重命名

我有一个文件夹,里面有数百张图片,每张图片的标题都带有文字。我想使用 OCR 从每张图片中提取第一行文字,并将文件重命名为该文字。或者,如果更简单的话,可以将文字放在图片元数据中。 我已经安装了 tesseract,并且在 MacOS 上使用 zsh。请问实现此目的的最佳方法是什么?谢谢。 ...

Admin

“tesseract” 到底是什么?
tesseract-ocr

“tesseract” 到底是什么?

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们尽可能地使下载和使用免费版本变得神秘和不友好。这是一个典型的例子:https://mupdf.com/downloads/ Windows 有两个不同的文件可供下载: mupdf-1.18.0-windows.zip mupdf-1.18.0-windows-tesseract.zip “-tesseract” 是什么?不知道。我浏览了该页面、其他页面、在线搜索等。毫无头绪。没有一个词能解释它们的区别或“tesseract”是什么意思。维基百科的歧义消除页面也没有提供任何线索来说明它可能指的是...

Admin

如何训练 Tesseract 适应新的 ttf 字体?
tesseract-ocr

如何训练 Tesseract 适应新的 ttf 字体?

我正在尝试训练 Tesseract 来处理一些看起来很有趣的字体,例如 Palace。我尝试了一种简单的方法 - 使用 http://trainyourtesseract.com/ (来自 Wayback Machine) 然后拨打了电话 api->Init(".\\tessdata", "eng+Palace",OEM_TESSERACT_ONLY). api->SetPageSegMode(PSM_SINGLE_LINE); api->SetImage(image); // Get OCR result outText = api-&g...

Admin

Ubuntu 上的 Tesseract.exe 路径
tesseract-ocr

Ubuntu 上的 Tesseract.exe 路径

我想在 Ubuntu 电脑上使用 Python 的 pytesseract。在 Windows 电脑上,我必须在调用图像到字符串函数之前设置 tesseract.exe 的路径。如何在 ubuntu 电脑上设置此路径?我在我的电脑上找不到 tesseract.exe 的路径。对于数据的变量 tesseract-PREFIX 也有同样的问题。提前致谢。Marek ...

Admin

如何在 Bash 中处理后逐步重命名文件?
tesseract-ocr

如何在 Bash 中处理后逐步重命名文件?

我有一组需要处理的文件,因此我倾向于在bashMac 和 Linux 中以编程方式执行此操作。由于我喜欢保留原始文件以防出现问题,因此我希望文件以增量方式重新编号,但我不知道实现此目的的正确bash构造。 这是一个例子。我有一组 .pdf 文件: bulletinlois00.pdf bulletinlois01.pdf bulletinlois02.pdf ... bulletinlois33.pdf 这些 PDF 尚未经过 OCR,因此我想使用 或 来遍历它们tesseract,但不是像那样ocrmypdf输出它们。这是使用相同文件集的另一个示例...

Admin

Tesseract:旧文档中的 OCR 十六进制和二进制字符串
tesseract-ocr

Tesseract:旧文档中的 OCR 十六进制和二进制字符串

我对 Tesseract 有一些疑问 语境 我目前正在研究东德 (GDR) 于 80 年代开发的一种旧加密算法。我用 C# 实现了该算法。现在我有大约 30 页的测试用例需要检查。因为我不想手动输入每个二进制/十六进制字符串,所以我想使用 Tesseract(或任何可用的免费软件)对其进行 OCR。 问题 我无法获得满意的结果。下面将详细说明。 当前状态 (抱歉,我不能直接发布图片)该文档如下所示: 页面的一部分/详细信件 幼稚的方法 使用默认设置(我使用德语,相关部分应该无关紧要)我得到的结果很糟糕。 tesseract -l deu i...

Admin

tesseract 无法处理 *.bmp 文件
tesseract-ocr

tesseract 无法处理 *.bmp 文件

Tesseract 无法处理 *.bmp 文件。它出现此错误。 Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica Error in pixReadMemBmp: size incommensurate with image data Error in pixReadStream: bmp: no pix returned Error in pixRead: pix not read Error during processing. 超正方体-v tesseract 4.00.0...

Admin

如何在 Debian 中安装最新版本的 tesseract-ocr
tesseract-ocr

如何在 Debian 中安装最新版本的 tesseract-ocr

我遇到了以下问题: pytesseract.pytesseract.TSVNotSupported: TSV output not supported. Tesseract >= 3.05 required at image_to_data (/usr/local/lib/python3.5/dist packages/pytesseract/pytesseract.py:371) 我的 tesseract -v 是 3.04.01。 sudo apt-get install tesseract-ocr tesseract-ocr is...

Admin

如何在 Ubuntu 16.04 LTS 上安装 Clang 4.0 或更高版本?
tesseract-ocr

如何在 Ubuntu 16.04 LTS 上安装 Clang 4.0 或更高版本?

我需要在 Ubuntu 16.04 LTS 上安装 Clang 3.4 及以上版本,作为先决条件此包我需要使用。 不确定我是否应该使用最新的 Clang 版本,如果是,我该如何在我使用的 Ubuntu 上使用它?或者,Clang 4.0 就够了吗? 那么,如何为 Ubuntu 16.04 LTS 安装 Clang 4.0? ...

Admin

如何使用 pdfsandwich 向 pdf 添加 OCR 功能的同时保持 pdf 图像不变?
tesseract-ocr

如何使用 pdfsandwich 向 pdf 添加 OCR 功能的同时保持 pdf 图像不变?

我正在尝试将 OCR 添加到 PDF 中,并使用pdfsandwich这样做。问题是 pdfsandwich 在执行 OCR 时会处理图像,从而改变文档的外观。 有什么方法可以确保 PDF 图像保持完全不变?如果 pdfsandwich 无法做到这一点,那么使用其他应用程序来实现这一点也是可以接受的。 之前的示例: 示例之后: 通过 pdfsandwich 运行 pdf 后,您可以轻松看到质量的下降。 我查看了 pdfsandwich 文档,没有找到有关保持图像不变的任何内容。 ...

Admin

Tesseract 性能差异
tesseract-ocr

Tesseract 性能差异

我有几台机器运行 tesseract-ocr 4.0 用于不同的应用程序。这些机器的配置相似(4 核,16 GB 内存),并且全部运行 Ubuntu 16.04.5 LTS。 然而,在工作过程中,至少有一个应用程序已经分叉并正在运行某物这显著提高了 Tesseract 的性能。对于特定页面,其他实例的 Tesseract 需要 7-7.5 秒,而此特定实例的 Tesseract 仅需 3.5-4 秒。 自然,我想找出造成这种情况的原因,并尝试将其应用到所有其他情况中。 这是我到目前为止发现的所有内容。1. 它们的存储都相同,因此 SSD/磁性硬盘性能没...

Admin