编辑可搜索的 .pdf OCR

编辑可搜索的 .pdf OCR

我的情况比较特殊,所以我会尽量快速准确地解释。我必须将几张 230 毫米 x 268 毫米(约 9 英寸 x 27.7 英寸)的旧纸张数字化,这些纸张折叠成 4 部分;您可以找到一个快速绘制的示例这里来得到一个想法。

扫描和重新排版并不是真正的问题,我会扫描每个折叠并通过 photoshop 将它们放在一起。我需要的是一个包含原始扫描页面图像的 .pdf 文件,并且文本可供网络搜索引擎读取/搜索和索引。
正如您在上面的链接中看到的,页面上还有几个 ADS 框,我实际上不需要对其进行 OCR,可以省略。

现在,我使用 Acrobat Pro X 处理通过 Photoshop 重新排版的 .pdf 文件。结果相当不错,但当然不是完美的,我发现最麻烦的是纠正错误的详尽文本并删除或排除文档中不必要的区域。

我想知道是否有一个应用程序可以以比 Acrobat 更实用的方式编辑底层 OCR 文本。Adobe 在工具面板中提供了“查找可疑文本”功能(使用起来真的很烦人),但可疑文本并不总是完整的,实际上并不存在错误,很多时候它识别为正确的字符根本不正确(例如斜体“l”被认为是“/”,等等);不幸的是,我的文本也部分由其他语言字体组成,如日文或中文,文本大多数时候都变成了乱码,所以我还需要根据可选字符修复错误的文本。

我认为,一种比较编辑器,比如在一个窗格中显示扫描图像,在另一个窗格中显示文档选定区域的 OCR 文本,是最理想的解决方案,可以快速有效地纠正错误。
定义和排除要由 OCR 处理的扫描文档区域的可能性确实是另一个非常需要的功能;我发现使用 Acrobat 时,您可以使用直接箭头编辑工具删除文本框,这可以算是实用的,尽管使用起来相当困难,因为您大多数时候都会单击背景扫描图像。

对于这类工作有什么建议吗?也许还有另一种更实用和/或更高效的工作流程?欢迎任何建议!

我在一台 Win 7 64 位机器上。

答案1

你可以尝试ABBYY FineReader。它符合您的需求描述。

相关内容