对许多 PDF 文件进行批量 OCR(尚未 OCR)?

对许多 PDF 文件进行批量 OCR(尚未 OCR)?

我使用 Google 桌面搜索(我使用的是 Vista),但存档文件夹中并非所有 PDF 文件都能被识别。这是正常的,因为“包含扫描图像的 PDF 文件“未编入索引http://desktop.google.com/support/bin/answer.py?hl=en&answer=90651

因此,我想对许多尚未 OCR 的 PDF 文件进行 OCR。 我的目标:我给程序一个文件夹,然后它在子文件夹中单独搜索需要转换为 PDF-OCRed 文件的 PDF 文件。

注意:过去,如果 PDF 文件受密码保护,我会使用另一个批处理(付费)工具删除密码:verypdf.com“pwdremover”http://www.verypdf.com/pwdremover/

有什么(不太贵的)想法吗?

我已经尝试过:当时在 xp 上使用 Finereader 6 pro,但没有包含批处理器...使用 Tesseract 的 Paperfile paperfile.nethttp://code.google.com/p/tesseract-ocr/。但是 OCR 只是 PDF 转文本,而不是 PDF 转 PDF!还有另一个项目http://code.google.com/p/ocropus/

提前致谢 ;)

答案1

tl;dr?从 Nuance PowerPDF Advanced 开始。

2014 年 12 月,我评估了 OCR 软件,为一个大项目做准备 - 对数百万份英文页面进行批量 OCR。如果您愿意花几百美元,您有很多选择;如果您只需要转换几百页,试用版就可以帮您搞定。

许多软件包都希望加载所有输入文件,进行 OCR 并将混乱合并为单个输出。恕我直言,这完全是错误的,我不知道谁会想要那样。我正在寻找真正的批处理:每个输入文件都有一个输出文件,无人值守操作,不会因为任何事情而停止,最后给我一份详细的报告。剧透警告:我没有找到。

以下是按字母顺序排列的套餐。以下价格为清单,但折扣很多。我对准确性的评论持保留态度;您的输入与我的输入不同,因此您的里程肯定会有所不同。

ABBYY Finereader 12 Corporate:400 美元。批处理功能称为“任务管理器”,位于“工具”菜单上。它将处理文件夹中的文件(包括子文件夹);它会很乐意为每个输入文件创建单独的输出文件。它似乎无法保留输入文件夹层次结构;所有输出文件都进入同一个输出文件夹。在我的测试中,它的准确率很高,但仍然是我在此处列出的软件包中最低的。

Adobe Acrobat XI:300 美元。批处理功能称为“文本识别/多个文件”,可通过单击“工具”(第三个工具栏,主屏幕右上方)找到。处理子文件夹,每个输入一个输出。如果发现受密码保护的文件,则停止并提出提示。默认情况下不保留输入目录树;可以通过将输出写入与输入相同的文件夹来保留。在我的测试中,准确度相当高。

Nuance OmniPage Ultimate(又名 v19):500 美元。批处理功能称为“DocuDirect”,它是随软件包附带的单独程序。它将处理文件夹和子文件夹;如果您选择的功能恰到好处,它将在输出区域中保留输入目录树。每个输入都有一个输出。停止并要求输入受保护文件的密码。似乎充分利用了多核处理器来并行运行任务。准确度出色的。但是批处理器的稳定性较差;模糊的文档会使其停止运行,并且无法恢复,从而轻易使批处理脱轨。

Nuance PowerPDF Advanced v1.1(OmniPage Ultimate 的后继产品):150 美元。批处理功能称为“批处理转换器”,可从主程序的“高级处理”选项卡下访问。它将处理文件夹和子文件夹,在输出中保留输入结构。每个输入一个输出。将使用多个内核,但不会过度使用;这意味着我无法让它饱和多核主机。准确度是优秀,与 OmniPage 一样好甚至更好。坏文件或模糊文件不会导致它挂起。批处理器写入(震惊) 将纯文本日志文件复制到输出目录。

ReadIris Corporate 14:600 美元。批量功能由“批量 OCR”项调用,单击主屏幕上的“来自文件”按钮即可显示该项。它将处理文件夹和子文件夹,每个输入对应一个输出,默认情况下,输出目录结构与输入目录结构匹配。停止并要求用户输入无效文件;通过对图像进行 OCR 处理,无任何进一步投诉地处理所有受保护的文档。准确度非常好,与 Acrobat 相当。

在我的台式机(只有双核)上,使用我选择的输入,每个包至少需要 3 秒钟来处理一个页面;有些需要更多时间。也许可以在具有更多核心的机器上降低这个时间。

陷阱比比皆是,一定要做好应对准备:无效的 PDF(某些软件包停止运行)、受密码保护的 PDF(某些软件包停止运行,其他软件包仍然转换!)以及旋转的页面(横向而不是纵向)。如果您希望批处理运行完成,您必须非常非常小心地准备这些软件包的输入区域。查看 GhostScript 软件包的打印到 PDF 功能,了解从 PDF 中删除保护的方法。

运行大批量可能会导致内存耗尽和挂起问题,尽管这不应该发生(啊 - 可能是内存泄漏)。如果您正在执行任何类型的自动化,那么一个大问题是事后发现真正发生了什么 - 哪些文档无法处理,哪些文档在处理过程中失败了,等等。这就像桌面软件人员从未听说过“日志文件”一样。

最终,即使是付费客户,获得这些大众市场软件包的支持也相当困难。例如,我向一位受人尊敬的客户支持代表抱怨一个软件包(不透露姓名)需要输入大量数据才能运行。我等了 36 个小时才放弃 :)。他们善意地建议将批处理大小限制为 300 个文档。这对我来说完全不可接受,但是嘿,这很快就关闭了支持单,对吧?这才是最重要的,对吧?唉。

高血压

答案2

Adobe Acrobat 将处理 PDF 文件夹,与大多数 Adob​​e 产品一样,它有一个30 天试用.
该功能位于‘文档’菜单中:

文档 > OCR 文本识别 > 使用 OCR 识别多个文件中的文本

您可以从那里添加您的文件夹。

在 Acrobat X 中该功能如下:

工具 > 识别文本 > 在多个文件中

答案3

实际上,pdfsandwich已在去年更新,在 Linux Mint 中安装对我来说一点也不难。它给出的结果不如 Adob​​e Acrobat,但它是我迄今为止在 Linux 中发现的唯一可行的解​​决方案。

答案4

尝试手表OCR。这是一个开源软件包,可将扫描的图像转换为可进行文本搜索的 PDF。它是免费的开源软件包,具有良好的 Web 界面,可用于远程管理。通过正确的配置,它可用于通过 SMB 共享为整个网络创建批量 PDF/OCR 服务。不幸的是,它仅适用于 Linux。但您可以将其安装在旧服务器上,然后您的整个组织都可以使用它。

如果你想在线执行相同操作而不安装任何东西,请尝试PDFCubed.com

相关内容