tesseract-ocr

使用 ocrmypdf 进行数字识别
tesseract-ocr

使用 ocrmypdf 进行数字识别

我想使用 ocrmypdf 从该图像中获取“5”: 我试过: ocrmypdf digit.png --output-type none --image-dpi 300 --sidecar side.txt - > /dev/null 但什么也没有,sidecar 是空的,并且在 stderr 中打印文件是空的。 在将图像传递给 ocrmypdf 之前,我也尝试使用 ImageMagick 对其进行升级,但仍然没有任何效果。 ...

Admin

tesseract OCR 没有输出也没有诊断
tesseract-ocr

tesseract OCR 没有输出也没有诊断

我tesseract过去曾多次成功使用 OCR。在 macOS 上;它由“home-brew”安装 今天我做到了 WGroleau@MBP ~ % brew upgrade # to make sure everything is the latest and then … WGroleau@MBP ~ % tesseract ~/Downloads/temp.jpg stdout -l chi_sim 福佳生活饶 最后一个(第五个)字符不正确,因此我对该字符进行了细微的图形编辑,然后运行了相同的命令。没有输出,没有诊断。运行详细命令 — 仍然没有诊断,只...

Admin

我可以使用 gImageReader 注释 PDF 以使其可搜索吗?
tesseract-ocr

我可以使用 gImageReader 注释 PDF 以使其可搜索吗?

我正在使用最新版本的 gImageMaker (3-2023,Windows 10)。OCR 运行良好。 我使用 PDF 作为源,但它不可搜索,我只想将 OCR 文本添加到 PDF 以便可以搜索。 到目前为止,我只能用文本创建新的 PDF。但我想保留原始 PDF,只用 OCR 文本进行注释。 有机会使用 gImageMaker 来做到这一点吗? 参考: 如何搜索仅包含图像的文本的 PDF? 寻找适用于 Windows 的 PDF 文档的优质注释工具 ...

Admin

ffprobe 字幕流的 OCR
tesseract-ocr

ffprobe 字幕流的 OCR

我有一些包含 HDMV PGS 字幕的视频文件,我需要将它们转换为 subrip(或其他文本字幕)。我知道我可以使用 ffmpeg 解复用视频文件来提取.sup并即时将其转换为 VobSub,然后subtitleedit /convert使用其自己的 tesseract 将其转换为 subrip。 但是,我只想使用 ffprobe/ffmpeg,我之前已经用 libtesseract 等编译过它。我也不介意将原始 tesseract 输出解析为 subrip,但我只需要获取它。 我已经尝试过例如: ffprobe -show_entries frame_ta...

Admin

仅从第一页 TIFF 获取 hocr 提取的输出
tesseract-ocr

仅从第一页 TIFF 获取 hocr 提取的输出

[示例图片] 我在下面给出的代码中寻求您的指导。我正在运行此代码以将文本从多页 TIFF 提取到 hocr 格式。我从 TIFF 的第一页获得输出,但其余页面被省略。 # Python program to extract text from all the images in a folder # storing the text in corresponding files in a different folder # This is for hocr output, but there is error of getting only 1 page ...

Admin

ImageMagick 显示 WxH+x+y 窗口
tesseract-ocr

ImageMagick 显示 WxH+x+y 窗口

在 ImageMagick 的显示中,如果我按“c”并开始拖动裁剪框,则左上角会出现一个小框,显示裁剪框的 WxH+x+y。 除了截取屏幕截图并在图像上运行 tesseract-ocr 或类似程序之外,还有什么方法可以在 bash 中以编程方式访问数据? ...

Admin

如何将多幅图像中的文本提取到一个文本文件中?
tesseract-ocr

如何将多幅图像中的文本提取到一个文本文件中?

我已经安装了所有东西,我使用在线工具将 PDF 文件翻录为 JPG,问题是该工具将 PDF 的每一页都放入单独的图像中,现在有 500 张左右。有没有办法只选择一个文件夹,让 tesseract 将所有图像的所有文本放入一个文本或 word 文件中? 据我了解,PDF 不能与 tesseract 一起使用,最简单的方法是将 PDF 转换为 JPEG,或者有更好的解决方法? 我在 Windows PC 上使用 Tesseract ...

Admin

tesseract - 构建和安装(`configure`、`make`、`make install`...)tesseract 版本 3(tesseract-ocr-3.XX.XX)
tesseract-ocr

tesseract - 构建和安装(`configure`、`make`、`make install`...)tesseract 版本 3(tesseract-ocr-3.XX.XX)

问题: 我正在尝试构建和安装(,,configure... )makemake install立方体版本 3(tesseract-ocr-3.02.02)在 Ubuntu Server 20.04 LTS 上出现以下错误... 构建并安装命令... tar -zxvf tesseract-ocr-3.02.02.tar.gz cd ./tesseract-ocr-3.02.02 ./autogen.sh ./configure make -j 4 && make install ldconfig 错误输出... [...] -I../vie...

Admin

对多个文件执行 OCR 和重命名
tesseract-ocr

对多个文件执行 OCR 和重命名

我有一个文件夹,里面有数百张图片,每张图片的标题都带有文字。我想使用 OCR 从每张图片中提取第一行文字,并将文件重命名为该文字。或者,如果更简单的话,可以将文字放在图片元数据中。 我已经安装了 tesseract,并且在 MacOS 上使用 zsh。请问实现此目的的最佳方法是什么?谢谢。 ...

Admin

“tesseract” 到底是什么?
tesseract-ocr

“tesseract” 到底是什么?

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们尽可能地使下载和使用免费版本变得神秘和不友好。这是一个典型的例子:https://mupdf.com/downloads/ Windows 有两个不同的文件可供下载: mupdf-1.18.0-windows.zip mupdf-1.18.0-windows-tesseract.zip “-tesseract” 是什么?不知道。我浏览了该页面、其他页面、在线搜索等。毫无头绪。没有一个词能解释它们的区别或“tesseract”是什么意思。维基百科的歧义消除页面也没有提供任何线索来说明它可能指的是...

Admin

如何训练 Tesseract 适应新的 ttf 字体?
tesseract-ocr

如何训练 Tesseract 适应新的 ttf 字体?

我正在尝试训练 Tesseract 来处理一些看起来很有趣的字体,例如 Palace。我尝试了一种简单的方法 - 使用 http://trainyourtesseract.com/ (来自 Wayback Machine) 然后拨打了电话 api->Init(".\\tessdata", "eng+Palace",OEM_TESSERACT_ONLY). api->SetPageSegMode(PSM_SINGLE_LINE); api->SetImage(image); // Get OCR result outText = api-&g...

Admin

Ubuntu 上的 Tesseract.exe 路径
tesseract-ocr

Ubuntu 上的 Tesseract.exe 路径

我想在 Ubuntu 电脑上使用 Python 的 pytesseract。在 Windows 电脑上,我必须在调用图像到字符串函数之前设置 tesseract.exe 的路径。如何在 ubuntu 电脑上设置此路径?我在我的电脑上找不到 tesseract.exe 的路径。对于数据的变量 tesseract-PREFIX 也有同样的问题。提前致谢。Marek ...

Admin

如何在 Bash 中处理后逐步重命名文件?
tesseract-ocr

如何在 Bash 中处理后逐步重命名文件?

我有一组需要处理的文件,因此我倾向于在bashMac 和 Linux 中以编程方式执行此操作。由于我喜欢保留原始文件以防出现问题,因此我希望文件以增量方式重新编号,但我不知道实现此目的的正确bash构造。 这是一个例子。我有一组 .pdf 文件: bulletinlois00.pdf bulletinlois01.pdf bulletinlois02.pdf ... bulletinlois33.pdf 这些 PDF 尚未经过 OCR,因此我想使用 或 来遍历它们tesseract,但不是像那样ocrmypdf输出它们。这是使用相同文件集的另一个示例...

Admin

Tesseract:旧文档中的 OCR 十六进制和二进制字符串
tesseract-ocr

Tesseract:旧文档中的 OCR 十六进制和二进制字符串

我对 Tesseract 有一些疑问 语境 我目前正在研究东德 (GDR) 于 80 年代开发的一种旧加密算法。我用 C# 实现了该算法。现在我有大约 30 页的测试用例需要检查。因为我不想手动输入每个二进制/十六进制字符串,所以我想使用 Tesseract(或任何可用的免费软件)对其进行 OCR。 问题 我无法获得满意的结果。下面将详细说明。 当前状态 (抱歉,我不能直接发布图片)该文档如下所示: 页面的一部分/详细信件 幼稚的方法 使用默认设置(我使用德语,相关部分应该无关紧要)我得到的结果很糟糕。 tesseract -l deu i...

Admin