ocr

仅从第一页 TIFF 获取 hocr 提取的输出
ocr

仅从第一页 TIFF 获取 hocr 提取的输出

[示例图片] 我在下面给出的代码中寻求您的指导。我正在运行此代码以将文本从多页 TIFF 提取到 hocr 格式。我从 TIFF 的第一页获得输出,但其余页面被省略。 # Python program to extract text from all the images in a folder # storing the text in corresponding files in a different folder # This is for hocr output, but there is error of getting only 1 page ...

Admin

宣布从 PDF 文档导入数据
ocr

宣布从 PDF 文档导入数据

我以传真的形式收到了这些糟糕的发票。我们正在实施 EDI,但接下来的几个月就只能这样了。我让输入数据的员工非常无聊和沮丧。有没有办法将数据从 PDF 提取到 Excel?我只需要黄色的数据。 尽管格式一致,但到目前为止我尝试过的方法都没有奏效: Adobe DC 专业 OCR 在 Word 中打开 PDF 删除黄色以外的所有内容,然后尝试转换为 Excel 我正在考虑使用电力自动化,但我不确定这是否值得付出努力,而不是仅仅外包数据输入。 如果解决方案是软件,我非常愿意付费 示例 PDF: ...

Admin

从 Acrobat 将 PDF 打印到新 PDF 并保留 OCR 文本
ocr

从 Acrobat 将 PDF 打印到新 PDF 并保留 OCR 文本

我想使用 Acrobat 将受保护的 PDF 文件打印到另一个 PDF 文件中,以便将来也可以查阅它,并且我想保持文本可搜索:有没有办法使用 Acrobat 做到这一点而不丢失 ocr? 我通过机构访问下载了该文件,并且该文件只能在我的 PC 上通过 Acrobat 打开 14 天。当然,如果我使用 Acrobat 正常将文件打印为 PDF,所有这些限制都会消失,但我失去了进行文本搜索和复制/粘贴文本的能力。 ...

Admin

Apache Tika:将 tika.xml 放在何处以禁用 OCR
ocr

Apache Tika:将 tika.xml 放在何处以禁用 OCR

我正在运行 Apache Tika,从一堆 MS Office 文档中提取文本。我的命令如下: java -jar "c:\path\to\tika-app-2.0.0.jar" -t ... (我在 Win10 的 MSYS2 终端上运行此命令)。收到很多类似这样的消息: INFO [main] 08:02:46,683 org.apache.tika.parser.ocr.TesseractOCRParser Tesseract is installed and is being invoked. This can add greatly to pro...

Admin

在 MS Word 图像上添加 OCR 层(从 ​​PDF 中提取)
ocr

在 MS Word 图像上添加 OCR 层(从 ​​PDF 中提取)

我正在处理一个 PDF(我用 LaTeX 创建),我需要将其转换为 MS Word 文档,但要保留 *完全* 原始的排版和设计。 由于所有从 PDF 到 Word 的转换器都会破坏一些东西,我认为最好 使用 PDF 作为 Word 文件的背景 添加一个 OCR 图层来选择文本(我不需要编辑文本;只是查看它并添加一些评论)。 有什么方法可以实现吗?将 PDF 的图像包含到 Word 中很容易,但我不知道如何在其上添加 OCR 层。 问候 ...

Admin

如何对此字幕进行 OCR?
ocr

如何对此字幕进行 OCR?

有没有 Linux OCR 工具可以提取此字幕而无需训练 LSTM?语言是葡萄牙语。一些图像裁剪和 Python 编码是可以接受的... 我找不到可以运行的 Tesseract 命令行。 ...

Admin

如何在扫描前标记纸质文档以简化OCR分类?
ocr

如何在扫描前标记纸质文档以简化OCR分类?

我的业务会产生大量手写笔记,这些笔记会被扫描并分类到客户的文件中。每个文件都有一个唯一的 5 位数字代码,该代码在扫描之前手写在页面上。我们的笔迹不一致,以至于 OCR 无法很好地识别文件编号。 有没有一种巧妙的方法可以快速手动标记纸质文档,使其信息在扫描后易于识别?我们无法提前打印条形码,而且这需要让办公室工作人员能够轻松完成。 我正在寻找一种简单的方法,让一些非技术人员可以快速手动添加信息,以方便自动对扫描进行分类。 如果有助于 OCR 处理,我们可以预先打印带有附加图形的页面。例如,我们可以在页面的特定部分打印类似 Scantron 表格的内容。 有简...

Admin

PDF 中的文本模糊
ocr

PDF 中的文本模糊

我有一个 pdf,里面的文字很模糊。文字本身可读,但会造成很大的负担。 这是文本的一个示例。 有办法解决吗? ...

Admin

如何从电影中对硬编码的韩语字幕进行 OCR?
ocr

如何从电影中对硬编码的韩语字幕进行 OCR?

我有一部中国电影叫《新李最(2017)》带有韩语字幕,刻录其中。或者说“硬编码”。现在,对于法语、西班牙语或英语字幕的电影或任何使用 ABC 字母的电影,我当然可以使用 Subrip 和 Avidemux 对其进行 OCR,并将其转换为 .SRT 文件。但 Subrip 和 Avidemux 不会说韩语也不懂韩语。我该怎么做? ...

Admin

在 bash 中使用模式匹配来处理 case 语句(而不是正则表达式)
ocr

在 bash 中使用模式匹配来处理 case 语句(而不是正则表达式)

我已经编写了我的第一个 bash 脚本。我的目标是让我的办公室“无纸化”。我有很多扫描的文档,我想用日期(通常位于每个文档的顶部)作为文件名前缀来保存它们。脚本应该执行以下操作: 在 pdf 上进行 ocr 在前 100 行中查找日期。日期采用德语格式,属于以下模式之一(这也是优先顺序):a) 01.02.2020 b) 01. Februar 2020 c) 01. Feb. 2020 如果找到日期,则将其转换为以下格式的字符串:2020-02-01-,并将原始文件名重命名为生成的日期模式 2020-02-01-file-##.pdf(否则保留原始文件...

Admin

从扫描的 PDF 复制文本
ocr

从扫描的 PDF 复制文本

我有一些扫描的文件,我想从中复制文本。 Adobe Acrobat Pro 可以识别文本,但是文本被放置在一堆边界框中,因此不可能(?)标记所有文本并将其复制到其他地方。 有没有什么方法可以获取文档中的所有文本而无需单击每个框,或者通过让 AAP 忽略这些框,或者编写脚本等等? 是否有其他软件更适合解决这个问题? ...

Admin

我如何才能从屏幕截图的特定区域对文本进行 OCR,然后将其输出为可用的格式?
ocr

我如何才能从屏幕截图的特定区域对文本进行 OCR,然后将其输出为可用的格式?

我正在尝试自动记录《街头霸王》中的排名游戏 - 是的,我知道这很无聊。我有一个电子表格 我为每个排名游戏手动输入了以下内容: 对手的用户名 他们的性格 比赛前的积分 比赛前的我的观点 这不是什么大问题,但我们是超级用户,对吧?理想情况下,我希望能够截取显示此信息的屏幕截图 然后以某种方式通过 OCR 自动解析这些详细信息,以便我可以以某种方式进一步使用。我该怎么做?我不知道,但我确信这是可能的。 ...

Admin

我如何扫描并获取带有可选日文文本的 PDF 文件?
ocr

我如何扫描并获取带有可选日文文本的 PDF 文件?

我有几本日文杂志。我想把它们带上飞机阅读,但它们太重了,所以理想情况下,我考虑扫描这些页面并以 pdf 格式携带。但我喜欢做注释,所以需要可选择的文本。 实现这一目标的最简单方法是什么?(我听说可以使用 Adob​​e Acrobat,但我想要免费的工具) 编辑:我读到现代扫描仪具有 OCR 功能,所以今天我尝试扫描一页。我只得到了一张巨大的图像。无法选择文本。 :( ...

Admin