我可以强制 Acrobat Professional 用文本替换经过 OCR 处理的可选图像吗?

我可以强制 Acrobat Professional 用文本替换经过 OCR 处理的可选图像吗?

我有一本想在屏幕上阅读的书。它是以 200 dpi 的单色扫描的(我仍然不知道扫描仪驱动程序出了什么问题,我记得将其设置为灰度,但没有时间再次扫描),因此很难阅读。我用 Acrobat Acrobat Pro 对它进行了 OCR,效果还不错。但结果要么是所谓的“可搜索图像”,要么是“清晰扫描”。我喜欢保留布局,但问题是文本按扫描时的样子显示,因此很难在屏幕上阅读。此外,整本书占用了 70 MB。

在这里您可以看到已经识别的文本:

在此处输入图片描述

我尝试了其他 OCR 程序,但(除了每张双页占用 100% 的处理器时间和内存 2 分钟外)它们都识别了文本,完全忽略了数字。我不太在意布局和排版,但数字很重要(我不需要对图像中的文本标签进行 OCR)。我认为,如果文本使用 ASCII,数字使用图像,大小应该会大大减少。

那么有没有办法抛弃文本图像,使用 OCR 版本进行阅读,同时保留图片的位置?我希望最终结果是 PDF 文件,但我也接受其他格式。我知道我可以手动将 OCR 文本粘贴到 word 中并截取图像的屏幕截图,但对于 520 页来说,这太费劲了。

答案1

在 Omnipage 16、17、18 中,您可以(更好的布局):

  • 自动或手动选择区域类型
  • 调整选定区域类型,文本,图片,表格
  • 旋转页面
  • 将双页改为单页
  • 导出带有或不带有原始扫描图像的 PDF(更清晰,更易于阅读)

该程序按需求执行(更好的识别)。

  • 拉直页面
  • 拉直线条

Omnipage 17、18 可以矫正弯曲的页面,以及数码相机拍摄的图像(特写)中错误的角度

ABBYY 8、9、10 确实具有相同的功能,但是对于数码相机照片的效果较差。

ABBYY 10 有一个很棒的“屏幕阅读器”。通过它,您可以识别显示器上的文本部分。甚至可以选择在线书籍(如 google books 或 sribd dot com)的文本。将显示器垂直放置,并确保文本最大。

Infix 可用于清理已识别的 PDF,导出为“带图片的文本”。可轻松删除页面中错误选择的无图片部分等。还可向 PDF 添加页面或删除页面。

Able2Abstract 非常适合识别表格。PDF2XL 也能做到这一点。

Scan Tailor 有点不友好,但免费,可以从扫描中获取黑色文本。当您缺少页面的某些部分时,请重新设置各个页面的大小。

使用 Abbyy 也可以只获取黑色文本和图片。这里保存的工作文件确实包含黑白 tiff 页面。您可以将它们复制到其他地方,删除 tumbfile 或元数据,然后将 tiff 放入 multitiff 或 pdf 中。此文件比可识别的 pdf 大。

Photoshop、Paint Shop Pro可以帮助更改扫描文本的图片、单页或批量模式。

Paperport(不完美)有助于扫描,使文本在扫描时更黑,在扫描后修复文本等,但仅适用于单个页面,将单个页面放入 1 个 pdf。

Bookmaker 价格昂贵,而且比较老旧,修复了一些页面曲线,可以擦除黑色边。试用版有限制,但可以在某个隐藏的地方逐页导出到 tiff。

改变扫描仪软件的参数可以提供更好的输出。

拍摄一本 500 页的书需要 1 个小时。

  • 使用三脚架
  • iso 100 或 200
  • 使用书本的白纸进行手动白平衡。(或其他“更白”的纸张)
  • 光线好,但不是直射阳光
  • 看书页之间的大阴影,必要时将书翻到一半
  • 做一些测试
  • 单反相机使用更高的光圈值(如 8 或 11)可获得更好的景深

答案2

我发现的最好的方法是这个,但我很想听到 Acrobat 有更好的解决方案。

OCR 之后,您可以选择文本,然后更改字体:

右键单击选择并选择属性

转到文本选项卡并选择字体和字体大小。

不幸的是,这通常也会破坏布局、字母位置以及行距。

另一种可能性是将所有文本复制到文本编辑器(例如 word 或 openoffice)中,然后完全重新布局所有文本......

相关内容