当我使用 Adobe Acrobat 2017 进行 OCR 时,我发现它无法在同一页面上拾取相同的文本。例如,当我们在同一页面上出现 15 次 Dr. Thand 这个词时,它只会拾取这个名字 12 次。有人可以就此问题提供指导吗?
答案1
OCR 永远不可能 100% 准确,在 PDF 进行 OCR 之后应该进行编辑审查。
根据我的经验,对 OCR 结果进行估计(主观判断):
- sans-serif:准确率 95%
- 衬线字体:准确率 90%
- 等宽字体:准确率 80%
- 装饰衬线:准确率 75%
- 草书:准确率为 50%
当然,上述估计仅仅是在 PDF 未经扫描并且只是基于图像且没有垃圾的 PDF 的情况下。
如果你无法通过编辑运行 PDF,你可以随时通过按键F7或使用来检查拼写Edit => Check Spelling => In Fields, Comment, Editable Text