tesseract-ocr

tesseract ocr:为什么当我将包含计算机数字的 png 图像 ocr 到文本文件时会返回垃圾信息?
tesseract-ocr

tesseract ocr:为什么当我将包含计算机数字的 png 图像 ocr 到文本文件时会返回垃圾信息?

我已经安装了 tesseract ocr 5.3.0(在 Debian 12 上) 我想扫描并对该 png 文件进行 OCR 处理: 当我执行: tesseract cp1.png cp1 输出cp1.txt包含意外的垃圾: y seeseeggegegegenagesseagegs feésidaedsdcsdasaredadacd sgsessesesssesagess B isgsddsadsdecansas geverdcdessaguce sses SERRRERRRRSRSRSERRRERSEsesR an 为什么? ...

Admin

混合数学和文本的 OC 文档
tesseract-ocr

混合数学和文本的 OC 文档

我有一份包含数学方程式的文档,我想用谷歌翻译将其翻译成另一种语言。如果这是一份带有图片的文本文档,我会使用任何 OCR 软件,将文本复制粘贴到谷歌翻译中,并忽略图片。本文档有所不同,因为: 由于方程式部分为文本,因此可能被 OCR 部分识别,但如果方程式没有完全按原样再现(例如,简单地将下标改为上标就会改变含义),文章的含义就会发生变化。 数学有几百种,所以处理数学的过程必须可靠(在某种意义上)。 所以我的想法是尝试编写一个可以对文本进行 OCR 处理的脚本。至于方程式,找到某种方法将它们自动转换为图像,并在使用谷歌翻译翻译后将这些图像自动插入字符串之间...

Admin

Windows cmd 无法识别改变的 PATH
tesseract-ocr

Windows cmd 无法识别改变的 PATH

几天前,我通过 Chocolatey 安装 Capture2Text 来安装 Tesseract OCR。事实证明这不起作用,我没有卸载 Capture2Text,而是继续从 Chocolatey 的 lib 文件夹中删除 Capture2Text 文件夹。现在,每当我在命令窗口中调用 Tesseract 时,它都会显示: 无法在“..\lib\capture2text\tools\Capture2Text\Utils\tesseract\tesseract.exe”处找到文件 (C:\ProgramData\chocolatey\lib\capture2...

Admin

使用 ocrmypdf 进行数字识别
tesseract-ocr

使用 ocrmypdf 进行数字识别

我想使用 ocrmypdf 从该图像中获取“5”: 我试过: ocrmypdf digit.png --output-type none --image-dpi 300 --sidecar side.txt - > /dev/null 但什么也没有,sidecar 是空的,并且在 stderr 中打印文件是空的。 在将图像传递给 ocrmypdf 之前,我也尝试使用 ImageMagick 对其进行升级,但仍然没有任何效果。 ...

Admin

tesseract OCR 没有输出也没有诊断
tesseract-ocr

tesseract OCR 没有输出也没有诊断

我tesseract过去曾多次成功使用 OCR。在 macOS 上;它由“home-brew”安装 今天我做到了 WGroleau@MBP ~ % brew upgrade # to make sure everything is the latest and then … WGroleau@MBP ~ % tesseract ~/Downloads/temp.jpg stdout -l chi_sim 福佳生活饶 最后一个(第五个)字符不正确,因此我对该字符进行了细微的图形编辑,然后运行了相同的命令。没有输出,没有诊断。运行详细命令 — 仍然没有诊断,只...

Admin

我可以使用 gImageReader 注释 PDF 以使其可搜索吗?
tesseract-ocr

我可以使用 gImageReader 注释 PDF 以使其可搜索吗?

我正在使用最新版本的 gImageMaker (3-2023,Windows 10)。OCR 运行良好。 我使用 PDF 作为源,但它不可搜索,我只想将 OCR 文本添加到 PDF 以便可以搜索。 到目前为止,我只能用文本创建新的 PDF。但我想保留原始 PDF,只用 OCR 文本进行注释。 有机会使用 gImageMaker 来做到这一点吗? 参考: 如何搜索仅包含图像的文本的 PDF? 寻找适用于 Windows 的 PDF 文档的优质注释工具 ...

Admin

ffprobe 字幕流的 OCR
tesseract-ocr

ffprobe 字幕流的 OCR

我有一些包含 HDMV PGS 字幕的视频文件,我需要将它们转换为 subrip(或其他文本字幕)。我知道我可以使用 ffmpeg 解复用视频文件来提取.sup并即时将其转换为 VobSub,然后subtitleedit /convert使用其自己的 tesseract 将其转换为 subrip。 但是,我只想使用 ffprobe/ffmpeg,我之前已经用 libtesseract 等编译过它。我也不介意将原始 tesseract 输出解析为 subrip,但我只需要获取它。 我已经尝试过例如: ffprobe -show_entries frame_ta...

Admin

仅从第一页 TIFF 获取 hocr 提取的输出
tesseract-ocr

仅从第一页 TIFF 获取 hocr 提取的输出

[示例图片] 我在下面给出的代码中寻求您的指导。我正在运行此代码以将文本从多页 TIFF 提取到 hocr 格式。我从 TIFF 的第一页获得输出,但其余页面被省略。 # Python program to extract text from all the images in a folder # storing the text in corresponding files in a different folder # This is for hocr output, but there is error of getting only 1 page ...

Admin

ImageMagick 显示 WxH+x+y 窗口
tesseract-ocr

ImageMagick 显示 WxH+x+y 窗口

在 ImageMagick 的显示中,如果我按“c”并开始拖动裁剪框,则左上角会出现一个小框,显示裁剪框的 WxH+x+y。 除了截取屏幕截图并在图像上运行 tesseract-ocr 或类似程序之外,还有什么方法可以在 bash 中以编程方式访问数据? ...

Admin

如何将多幅图像中的文本提取到一个文本文件中?
tesseract-ocr

如何将多幅图像中的文本提取到一个文本文件中?

我已经安装了所有东西,我使用在线工具将 PDF 文件翻录为 JPG,问题是该工具将 PDF 的每一页都放入单独的图像中,现在有 500 张左右。有没有办法只选择一个文件夹,让 tesseract 将所有图像的所有文本放入一个文本或 word 文件中? 据我了解,PDF 不能与 tesseract 一起使用,最简单的方法是将 PDF 转换为 JPEG,或者有更好的解决方法? 我在 Windows PC 上使用 Tesseract ...

Admin

tesseract - 构建和安装(`configure`、`make`、`make install`...)tesseract 版本 3(tesseract-ocr-3.XX.XX)
tesseract-ocr

tesseract - 构建和安装(`configure`、`make`、`make install`...)tesseract 版本 3(tesseract-ocr-3.XX.XX)

问题: 我正在尝试构建和安装(,,configure... )makemake install立方体版本 3(tesseract-ocr-3.02.02)在 Ubuntu Server 20.04 LTS 上出现以下错误... 构建并安装命令... tar -zxvf tesseract-ocr-3.02.02.tar.gz cd ./tesseract-ocr-3.02.02 ./autogen.sh ./configure make -j 4 && make install ldconfig 错误输出... [...] -I../vie...

Admin

对多个文件执行 OCR 和重命名
tesseract-ocr

对多个文件执行 OCR 和重命名

我有一个文件夹,里面有数百张图片,每张图片的标题都带有文字。我想使用 OCR 从每张图片中提取第一行文字,并将文件重命名为该文字。或者,如果更简单的话,可以将文字放在图片元数据中。 我已经安装了 tesseract,并且在 MacOS 上使用 zsh。请问实现此目的的最佳方法是什么?谢谢。 ...

Admin

“tesseract” 到底是什么?
tesseract-ocr

“tesseract” 到底是什么?

就像许多提供免费/开源版本并销售“商业”版本的软件公司一样,他们尽可能地使下载和使用免费版本变得神秘和不友好。这是一个典型的例子:https://mupdf.com/downloads/ Windows 有两个不同的文件可供下载: mupdf-1.18.0-windows.zip mupdf-1.18.0-windows-tesseract.zip “-tesseract” 是什么?不知道。我浏览了该页面、其他页面、在线搜索等。毫无头绪。没有一个词能解释它们的区别或“tesseract”是什么意思。维基百科的歧义消除页面也没有提供任何线索来说明它可能指的是...

Admin

如何训练 Tesseract 适应新的 ttf 字体?
tesseract-ocr

如何训练 Tesseract 适应新的 ttf 字体?

我正在尝试训练 Tesseract 来处理一些看起来很有趣的字体,例如 Palace。我尝试了一种简单的方法 - 使用 http://trainyourtesseract.com/ (来自 Wayback Machine) 然后拨打了电话 api->Init(".\\tessdata", "eng+Palace",OEM_TESSERACT_ONLY). api->SetPageSegMode(PSM_SINGLE_LINE); api->SetImage(image); // Get OCR result outText = api-&g...

Admin