使用 OCR 对杂志或书籍进行数字化同时最小化文件大小的标准工作流程？

2024-5-19 • tag-icon

要扫描仅包含文本、黑白图像和清晰边框的书籍，我一直使用的工作流程是：

这很好用。但是，如果您的杂志或书籍的图像、结构元素、背景或与页面边缘重叠的图像包含大量颜色，则使用 scantailor（混合模式）会变得非常困难，并且您必须手动处理每一个页。

那么，在 Linux 中将这些资源数字化并获得小型文件的良好工作流程是什么？DJVU或者pdf带有ocr背景的文件？

相关内容