使用 OCR 对杂志或书籍进行数字化同时最小化文件大小的标准工作流程?

使用 OCR 对杂志或书籍进行数字化同时最小化文件大小的标准工作流程?

要扫描仅包含文本、黑白图像和清晰边框的书籍,我一直使用的工作流程是:

  • 使用相机或扫描仪对源进行数字化
  • 使用scantailor
  • 最后使用djvubind制作一个带有 ocr 背景的小 (1-7 MB) djvu 文件

这很好用。但是,如果您的杂志或书籍的图像、结构元素、背景或与页面边缘重叠的图像包含大量颜色,则使用 scantailor(混合模式)会变得非常困难,并且您必须手动处理每一个页。

那么,在 Linux 中将这些资源数字化并获得小型文件的良好工作流程是什么?DJVU或者pdf带有ocr背景的文件?

相关内容