对许多 PDF 文件进行批量 OCR（尚未 OCR）？

Question 1

tl;dr？从 Nuance PowerPDF Advanced 开始。

2014 年 12 月，我评估了 OCR 软件，为一个大项目做准备 - 对数百万份英文页面进行批量 OCR。如果您愿意花几百美元，您有很多选择；如果您只需要转换几百页，试用版就可以帮您搞定。

许多软件包都希望加载所有输入文件，进行 OCR 并将混乱合并为单个输出。恕我直言，这完全是错误的，我不知道谁会想要那样。我正在寻找真正的批处理：每个输入文件都有一个输出文件，无人值守操作，不会因为任何事情而停止，最后给我一份详细的报告。剧透警告：我没有找到。

以下是按字母顺序排列的套餐。以下价格为清单，但折扣很多。我对准确性的评论持保留态度；您的输入与我的输入不同，因此您的里程肯定会有所不同。

ABBYY Finereader 12 Corporate：400 美元。批处理功能称为“任务管理器”，位于“工具”菜单上。它将处理文件夹中的文件（包括子文件夹）；它会很乐意为每个输入文件创建单独的输出文件。它似乎无法保留输入文件夹层次结构；所有输出文件都进入同一个输出文件夹。在我的测试中，它的准确率很高，但仍然是我在此处列出的软件包中最低的。

Adobe Acrobat XI：300 美元。批处理功能称为“文本识别/多个文件”，可通过单击“工具”（第三个工具栏，主屏幕右上方）找到。处理子文件夹，每个输入一个输出。如果发现受密码保护的文件，则停止并提出提示。默认情况下不保留输入目录树；可以通过将输出写入与输入相同的文件夹来保留。在我的测试中，准确度相当高。

Nuance OmniPage Ultimate（又名 v19）：500 美元。批处理功能称为“DocuDirect”，它是随软件包附带的单独程序。它将处理文件夹和子文件夹；如果您选择的功能恰到好处，它将在输出区域中保留输入目录树。每个输入都有一个输出。停止并要求输入受保护文件的密码。似乎充分利用了多核处理器来并行运行任务。准确度出色的。但是批处理器的稳定性较差；模糊的文档会使其停止运行，并且无法恢复，从而轻易使批处理脱轨。

Nuance PowerPDF Advanced v1.1（OmniPage Ultimate 的后继产品）：150 美元。批处理功能称为“批处理转换器”，可从主程序的“高级处理”选项卡下访问。它将处理文件夹和子文件夹，在输出中保留输入结构。每个输入一个输出。将使用多个内核，但不会过度使用；这意味着我无法让它饱和多核主机。准确度是优秀，与 OmniPage 一样好甚至更好。坏文件或模糊文件不会导致它挂起。批处理器写入（震惊) 将纯文本日志文件复制到输出目录。

ReadIris Corporate 14：600 美元。批量功能由“批量 OCR”项调用，单击主屏幕上的“来自文件”按钮即可显示该项。它将处理文件夹和子文件夹，每个输入对应一个输出，默认情况下，输出目录结构与输入目录结构匹配。停止并要求用户输入无效文件；通过对图像进行 OCR 处理，无任何进一步投诉地处理所有受保护的文档。准确度非常好，与 Acrobat 相当。

在我的台式机（只有双核）上，使用我选择的输入，每个包至少需要 3 秒钟来处理一个页面；有些需要更多时间。也许可以在具有更多核心的机器上降低这个时间。

陷阱比比皆是，一定要做好应对准备：无效的 PDF（某些软件包停止运行）、受密码保护的 PDF（某些软件包停止运行，其他软件包仍然转换！）以及旋转的页面（横向而不是纵向）。如果您希望批处理运行完成，您必须非常非常小心地准备这些软件包的输入区域。查看 GhostScript 软件包的打印到 PDF 功能，了解从 PDF 中删除保护的方法。

运行大批量可能会导致内存耗尽和挂起问题，尽管这不应该发生（啊 - 可能是内存泄漏）。如果您正在执行任何类型的自动化，那么一个大问题是事后发现真正发生了什么 - 哪些文档无法处理，哪些文档在处理过程中失败了，等等。这就像桌面软件人员从未听说过“日志文件”一样。

最终，即使是付费客户，获得这些大众市场软件包的支持也相当困难。例如，我向一位受人尊敬的客户支持代表抱怨一个软件包（不透露姓名）需要输入大量数据才能运行。我等了 36 个小时才放弃 :)。他们善意地建议将批处理大小限制为 300 个文档。这对我来说完全不可接受，但是嘿，这很快就关闭了支持单，对吧？这才是最重要的，对吧？唉。

高血压

Answer