要扫描仅包含文本、黑白图像和清晰边框的书籍,我一直使用的工作流程是:
- 使用相机或扫描仪对源进行数字化
- 使用
scantailor
- 最后使用
djvubind
制作一个带有 ocr 背景的小 (1-7 MB) djvu 文件
这很好用。但是,如果您的杂志或书籍的图像、结构元素、背景或与页面边缘重叠的图像包含大量颜色,则使用 scantailor(混合模式)会变得非常困难,并且您必须手动处理每一个页。
那么,在 Linux 中将这些资源数字化并获得小型文件的良好工作流程是什么?DJVU或者pdf带有ocr背景的文件?