使用 OCR 使扫描不良的公共领域书籍清晰易读

2024-6-20 • tag-icon

使用 OCR 使扫描不良的公共领域书籍清晰易读

我获得了一些非常古老的公共领域书籍的软拷贝。

插图足够清晰，但文字有点模糊。

我已经尝试过 Tesseract OCR，它可以识别出数量惊人的带有一些错误的单词，但它会将它们吐出成一个单独的文件中的混乱状态。

问题：

有没有办法让 Tesseract 或其他 OCR 识别文本，然后将其放置在原始模糊文本上，而不更改线条和插图等其他元素？
而且，如果这是可能的，是否也可以让 Tesseract 或其他 OCR 模仿原始文本的不同大小、字体和颜色？

谢谢你！

相关内容