我可以“回滚”到没有 OCR 的 PDF 吗?

我可以“回滚”到没有 OCR 的 PDF 吗?

我正在使用 Automator 与 Abbys Finereader 结合使用,以查看文件夹中新扫描的 PDF 文档。Finereader 会对该文档进行 OCR 处理,并将其导出到同一文件夹中的新 PDF。一个月以来,我一直使用导出设置“文本在页面图像上”。用户指南对此设置的解释如下:

此选项会保存原始文档的背景和图片,并将识别的文本置于其上。通常,使用此选项保存的 PDF 文件比启用“仅文本和图片”选项保存的文件需要更多的磁盘空间。生成的 PDF 文档完全可搜索。在某些情况下,生成的文档的外观可能与原始文档略有不同。

问题是一些已扫描并经过“OCRed”的 PDF 中有许多错误字符,但我刚刚才发现这个故障。

是否有可能“回滚”到没有 OCR 的版本?我尝试将 PDF 导出为 TIFF 文件,但其中也有错误的字符……

有任何想法吗?

答案1

由于您写道您选择了“文本优先于页面图像”,因此您的 PDF 文件中仍应有原始扫描图像。要恢复它:如果您有 Adob​​e Acrobat,则可以选择另存为 > 图像 > JPG、TIFF 等。否则,请使用免费的 PDF 编辑器(例如 PDF-XChange Viewer),然后在文件菜单中选择导出 > 导出到图像...,然后选择您的图像格式(例如 TIFF)。这样,我就可以将 OCR 后的 PDF 文档(文本 + 图像)恢复为原始扫描图像。

您写道,您尝试将它们导出回图像(在 Finereader 中?),但生成的图像仍然包含“错误字符”。看起来您没有选择“文本在页面图像上”,而是选择了不保留扫描图像但使用 OCR 文本重建其布局的选项(Adobe Acrobat 称之为 ClearScan)。此功能会以最合适的格式使用 OCR 文本尽可能接近地重建扫描的布局,并且不会将扫描图像保留在 PDF 中。

相关内容