我获得了一些非常古老的公共领域书籍的软拷贝。
插图足够清晰,但文字有点模糊。
我已经尝试过 Tesseract OCR,它可以识别出数量惊人的带有一些错误的单词,但它会将它们吐出成一个单独的文件中的混乱状态。
问题:
有没有办法让 Tesseract 或其他 OCR 识别文本,然后将其放置在原始模糊文本上,而不更改线条和插图等其他元素?
而且,如果这是可能的,是否也可以让 Tesseract 或其他 OCR 模仿原始文本的不同大小、字体和颜色?
谢谢你!
我获得了一些非常古老的公共领域书籍的软拷贝。
插图足够清晰,但文字有点模糊。
我已经尝试过 Tesseract OCR,它可以识别出数量惊人的带有一些错误的单词,但它会将它们吐出成一个单独的文件中的混乱状态。
问题:
有没有办法让 Tesseract 或其他 OCR 识别文本,然后将其放置在原始模糊文本上,而不更改线条和插图等其他元素?
而且,如果这是可能的,是否也可以让 Tesseract 或其他 OCR 模仿原始文本的不同大小、字体和颜色?
谢谢你!