当我们使用 Adob​​e Acrobat 2017 的 OCR 时,无法多次拾取同一页面上的相同文本

当我们使用 Adob​​e Acrobat 2017 的 OCR 时,无法多次拾取同一页面上的相同文本

当我使用 Adob​​e Acrobat 2017 进行 OCR 时,我发现它无法在同一页面上拾取相同的文本。例如,当我们在同一页面上出现 15 次 Dr. Thand 这个词时,它只会拾取这个名字 12 次。有人可以就此问题提供指导吗?

答案1

OCR 永远不可能 100% 准确,在 PDF 进行 OCR 之后应该进行编辑审查。

根据我的经验,对 OCR 结果进行估计(主观判断):

  • sans-serif:准确率 95%
  • 衬线字体:准确率 90%
  • 等宽字体:准确率 80%
  • 装饰衬线:准确率 75%
  • 草书:准确率为 50%

当然,上述估计仅仅是在 PDF 未经扫描并且只是基于图像且没有垃圾的 PDF 的情况下。

如果你无法通过编辑运行 PDF,你可以随时通过按键F7或使用来检查拼写Edit => Check Spelling => In Fields, Comment, Editable Text

相关内容