使用 OCR 使扫描不良的公共领域书籍清晰易读

使用 OCR 使扫描不良的公共领域书籍清晰易读

我获得了一些非常古老的公共领域书籍的软拷贝。

插图足够清晰,但文字有点模糊。

我已经尝试过 Tesseract OCR,它可以识别出数量惊人的带有一些错误的单词,但它会将它们吐出成一个单独的文件中的混乱状态。

问题:

  1. 有没有办法让 Tesseract 或其他 OCR 识别文本,然后将其放置在原始模糊文本上,而不更改线​​条和插图等其他元素?

  2. 而且,如果这是可能的,是否也可以让 Tesseract 或其他 OCR 模仿原始文本的不同大小、字体和颜色?

谢谢你!

相关内容