输出概率数据的 OCR

2024-5-20 • tag-icon

我想通过使用 OCR 扫描我拥有的印刷书籍，然后通过 TTS 引擎运行文本，将其转换为音频。这些书籍不提供电子书。

由于 OCR 可能会犯一些小错误，尤其是在转换包含旧字体的图像时，我希望找到一个 OCR 引擎，可以使用描述引擎感知的正确匹配可能性或一系列其他可能性的元数据来标记文本的每个区域。例如，请参阅 Google Voice 的语音邮件转录，它以灰色阴影突出显示每个单词，指示语音到文本引擎的概率排名。

您知道有哪些套餐提供此服务吗？

相关内容