我有一本想在屏幕上阅读的书。它是以 200 dpi 的单色扫描的(我仍然不知道扫描仪驱动程序出了什么问题,我记得将其设置为灰度,但没有时间再次扫描),因此很难阅读。我用 Acrobat Acrobat Pro 对它进行了 OCR,效果还不错。但结果要么是所谓的“可搜索图像”,要么是“清晰扫描”。我喜欢保留布局,但问题是文本按扫描时的样子显示,因此很难在屏幕上阅读。此外,整本书占用了 70 MB。
在这里您可以看到已经识别的文本:
我尝试了其他 OCR 程序,但(除了每张双页占用 100% 的处理器时间和内存 2 分钟外)它们都识别了文本,完全忽略了数字。我不太在意布局和排版,但数字很重要(我不需要对图像中的文本标签进行 OCR)。我认为,如果文本使用 ASCII,数字使用图像,大小应该会大大减少。
那么有没有办法抛弃文本图像,使用 OCR 版本进行阅读,同时保留图片的位置?我希望最终结果是 PDF 文件,但我也接受其他格式。我知道我可以手动将 OCR 文本粘贴到 word 中并截取图像的屏幕截图,但对于 520 页来说,这太费劲了。
答案1
在 Omnipage 16、17、18 中,您可以(更好的布局):
- 自动或手动选择区域类型
- 调整选定区域类型,文本,图片,表格
- 旋转页面
- 将双页改为单页
- 导出带有或不带有原始扫描图像的 PDF(更清晰,更易于阅读)
该程序按需求执行(更好的识别)。
- 拉直页面
- 拉直线条
Omnipage 17、18 可以矫正弯曲的页面,以及数码相机拍摄的图像(特写)中错误的角度
ABBYY 8、9、10 确实具有相同的功能,但是对于数码相机照片的效果较差。
ABBYY 10 有一个很棒的“屏幕阅读器”。通过它,您可以识别显示器上的文本部分。甚至可以选择在线书籍(如 google books 或 sribd dot com)的文本。将显示器垂直放置,并确保文本最大。
Infix 可用于清理已识别的 PDF,导出为“带图片的文本”。可轻松删除页面中错误选择的无图片部分等。还可向 PDF 添加页面或删除页面。
Able2Abstract 非常适合识别表格。PDF2XL 也能做到这一点。
Scan Tailor 有点不友好,但免费,可以从扫描中获取黑色文本。当您缺少页面的某些部分时,请重新设置各个页面的大小。
使用 Abbyy 也可以只获取黑色文本和图片。这里保存的工作文件确实包含黑白 tiff 页面。您可以将它们复制到其他地方,删除 tumbfile 或元数据,然后将 tiff 放入 multitiff 或 pdf 中。此文件比可识别的 pdf 大。
Photoshop、Paint Shop Pro可以帮助更改扫描文本的图片、单页或批量模式。
Paperport(不完美)有助于扫描,使文本在扫描时更黑,在扫描后修复文本等,但仅适用于单个页面,将单个页面放入 1 个 pdf。
Bookmaker 价格昂贵,而且比较老旧,修复了一些页面曲线,可以擦除黑色边。试用版有限制,但可以在某个隐藏的地方逐页导出到 tiff。
改变扫描仪软件的参数可以提供更好的输出。
拍摄一本 500 页的书需要 1 个小时。
- 使用三脚架
- iso 100 或 200
- 使用书本的白纸进行手动白平衡。(或其他“更白”的纸张)
- 光线好,但不是直射阳光
- 看书页之间的大阴影,必要时将书翻到一半
- 做一些测试
- 单反相机使用更高的光圈值(如 8 或 11)可获得更好的景深
答案2
我发现的最好的方法是这个,但我很想听到 Acrobat 有更好的解决方案。
OCR 之后,您可以选择文本,然后更改字体:
右键单击选择并选择属性
转到文本选项卡并选择字体和字体大小。
不幸的是,这通常也会破坏布局、字母位置以及行距。
另一种可能性是将所有文本复制到文本编辑器(例如 word 或 openoffice)中,然后完全重新布局所有文本......