tesseract-ocr

tesseract ocr：为什么当我将包含计算机数字的 png 图像 ocr 到文本文件时会返回垃圾信息？

我已经安装了 tesseract ocr 5.3.0（在 Debian 12 上）我想扫描并对该 png 文件进行 OCR 处理：当我执行： tesseract cp1.png cp1 输出cp1.txt包含意外的垃圾： y seeseeggegegegenagesseagegs feésidaedsdcsdasaredadacd sgsessesesssesagess B isgsddsadsdecansas geverdcdessaguce sses SERRRERRRRSRSRSERRRERSEsesR an 为什么？ ...

Admin 2024-12-1

tesseract-ocr

混合数学和文本的 OC 文档

我有一份包含数学方程式的文档，我想用谷歌翻译将其翻译成另一种语言。如果这是一份带有图片的文本文档，我会使用任何 OCR 软件，将文本复制粘贴到谷歌翻译中，并忽略图片。本文档有所不同，因为：由于方程式部分为文本，因此可能被 OCR 部分识别，但如果方程式没有完全按原样再现（例如，简单地将下标改为上标就会改变含义），文章的含义就会发生变化。数学有几百种，所以处理数学的过程必须可靠（在某种意义上）。所以我的想法是尝试编写一个可以对文本进行 OCR 处理的脚本。至于方程式，找到某种方法将它们自动转换为图像，并在使用谷歌翻译翻译后将这些图像自动插入字符串之间...

Admin 2024-11-30

tesseract-ocr

Windows cmd 无法识别改变的 PATH

几天前，我通过 Chocolatey 安装 Capture2Text 来安装 Tesseract OCR。事实证明这不起作用，我没有卸载 Capture2Text，而是继续从 Chocolatey 的 lib 文件夹中删除 Capture2Text 文件夹。现在，每当我在命令窗口中调用 Tesseract 时，它都会显示：无法在“..\lib\capture2text\tools\Capture2Text\Utils\tesseract\tesseract.exe”处找到文件 (C:\ProgramData\chocolatey\lib\capture2...

Admin 2024-11-26

tesseract-ocr

使用 ocrmypdf 进行数字识别

我想使用 ocrmypdf 从该图像中获取“5”：我试过： ocrmypdf digit.png --output-type none --image-dpi 300 --sidecar side.txt - > /dev/null 但什么也没有，sidecar 是空的，并且在 stderr 中打印文件是空的。在将图像传递给 ocrmypdf 之前，我也尝试使用 ImageMagick 对其进行升级，但仍然没有任何效果。 ...

Admin 2024-11-20

tesseract-ocr

无法在 Centos 8.1 上安装 cairo-devel 和 pango-devel（用于 Tesseract）

为了编译Tesseract 培训计划从源代码来看，必须安装pango和的开发包。但是，我在 Centos 8.1 上安装它们时遇到了麻烦。cairo # cat /etc/redhat-release Centos release 8.1.1911 (Core) # dnf makecache CentOS-8 - AppStream 58 kB/s | 4.3 kB ...

Admin 2024-11-18

tesseract-ocr

tesseract OCR 没有输出也没有诊断

我tesseract过去曾多次成功使用 OCR。在 macOS 上；它由“home-brew”安装今天我做到了 WGroleau@MBP ~ % brew upgrade # to make sure everything is the latest and then … WGroleau@MBP ~ % tesseract ~/Downloads/temp.jpg stdout -l chi_sim 福佳生活饶最后一个（第五个）字符不正确，因此我对该字符进行了细微的图形编辑，然后运行了相同的命令。没有输出，没有诊断。运行详细命令 — 仍然没有诊断，只...

Admin 2024-11-18

tesseract-ocr

我可以使用 gImageReader 注释 PDF 以使其可搜索吗？

我正在使用最新版本的 gImageMaker (3-2023，Windows 10)。OCR 运行良好。我使用 PDF 作为源，但它不可搜索，我只想将 OCR 文本添加到 PDF 以便可以搜索。到目前为止，我只能用文本创建新的 PDF。但我想保留原始 PDF，只用 OCR 文本进行注释。有机会使用 gImageMaker 来做到这一点吗？参考：如何搜索仅包含图像的文本的 PDF？寻找适用于 Windows 的 PDF 文档的优质注释工具 ...

Admin 2024-11-7

tesseract-ocr

ffprobe 字幕流的 OCR

我有一些包含 HDMV PGS 字幕的视频文件，我需要将它们转换为 subrip（或其他文本字幕）。我知道我可以使用 ffmpeg 解复用视频文件来提取.sup并即时将其转换为 VobSub，然后subtitleedit /convert使用其自己的 tesseract 将其转换为 subrip。但是，我只想使用 ffprobe/ffmpeg，我之前已经用 libtesseract 等编译过它。我也不介意将原始 tesseract 输出解析为 subrip，但我只需要获取它。我已经尝试过例如： ffprobe -show_entries frame_ta...

Admin 2024-10-9

tesseract-ocr

仅从第一页 TIFF 获取 hocr 提取的输出

[示例图片] 我在下面给出的代码中寻求您的指导。我正在运行此代码以将文本从多页 TIFF 提取到 hocr 格式。我从 TIFF 的第一页获得输出，但其余页面被省略。 # Python program to extract text from all the images in a folder # storing the text in corresponding files in a different folder # This is for hocr output, but there is error of getting only 1 page ...

Admin 2024-10-4

tesseract-ocr

ImageMagick 显示 WxH+x+y 窗口

在 ImageMagick 的显示中，如果我按“c”并开始拖动裁剪框，则左上角会出现一个小框，显示裁剪框的 WxH+x+y。除了截取屏幕截图并在图像上运行 tesseract-ocr 或类似程序之外，还有什么方法可以在 bash 中以编程方式访问数据？ ...

Admin 2024-9-21

tesseract-ocr

如何将多幅图像中的文本提取到一个文本文件中？

我已经安装了所有东西，我使用在线工具将 PDF 文件翻录为 JPG，问题是该工具将 PDF 的每一页都放入单独的图像中，现在有 500 张左右。有没有办法只选择一个文件夹，让 tesseract 将所有图像的所有文本放入一个文本或 word 文件中？据我了解，PDF 不能与 tesseract 一起使用，最简单的方法是将 PDF 转换为 JPEG，或者有更好的解决方法？我在 Windows PC 上使用 Tesseract ...

Admin 2024-9-14

tesseract-ocr

tesseract - 构建和安装（`configure`、`make`、`make install`...）tesseract 版本 3（tesseract-ocr-3.XX.XX）

问题：我正在尝试构建和安装（，，configure... ）makemake install立方体版本 3（tesseract-ocr-3.02.02）在 Ubuntu Server 20.04 LTS 上出现以下错误... 构建并安装命令... tar -zxvf tesseract-ocr-3.02.02.tar.gz cd ./tesseract-ocr-3.02.02 ./autogen.sh ./configure make -j 4 && make install ldconfig 错误输出... [...] -I../vie...

Admin 2024-8-29

tesseract-ocr

对多个文件执行 OCR 和重命名

我有一个文件夹，里面有数百张图片，每张图片的标题都带有文字。我想使用 OCR 从每张图片中提取第一行文字，并将文件重命名为该文字。或者，如果更简单的话，可以将文字放在图片元数据中。我已经安装了 tesseract，并且在 MacOS 上使用 zsh。请问实现此目的的最佳方法是什么？谢谢。 ...

Admin 2024-8-18

tesseract-ocr

“tesseract” 到底是什么？

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样，他们尽可能地使下载和使用免费版本变得神秘和不友好。这是一个典型的例子：https://mupdf.com/downloads/ Windows 有两个不同的文件可供下载： mupdf-1.18.0-windows.zip mupdf-1.18.0-windows-tesseract.zip “-tesseract” 是什么？不知道。我浏览了该页面、其他页面、在线搜索等。毫无头绪。没有一个词能解释它们的区别或“tesseract”是什么意思。维基百科的歧义消除页面也没有提供任何线索来说明它可能指的是...

Admin 2024-8-15

tesseract-ocr

如何训练 Tesseract 适应新的 ttf 字体？

我正在尝试训练 Tesseract 来处理一些看起来很有趣的字体，例如 Palace。我尝试了一种简单的方法 - 使用 http://trainyourtesseract.com/ (来自 Wayback Machine) 然后拨打了电话 api->Init(".\\tessdata", "eng+Palace",OEM_TESSERACT_ONLY). api->SetPageSegMode(PSM_SINGLE_LINE); api->SetImage(image); // Get OCR result outText = api-&g...

Admin 2024-7-3