我扫描了一本 PDF 格式的书,但是质量相当差:
(如果你想知道的话,这本书的语言是罗马尼亚语,是一本医学生理学书籍)
我想从这本书(1500 页)中提取文本,但保留图像原样。我真的不认为我有机会找到解决方案,所以我肯定会买这本书。
碰巧,有没有什么强大的软件可以满足我的需求?它还必须识别罗马尼亚语。
答案1
答案2
Adobe Acrobat Professional 可以做到这一点。我不确定是否有罗马尼亚语版本...
答案3
ABBYY Fine Reader是一款非常强大的 OCR 软件。它可以处理非常复杂的布局并支持多种格式(包括 pdf)。罗马尼亚语支持词典,即软件在识别过程中使用词典进行假设优先排序。(这里)。
无论如何,对扫描质量较差的科学文献进行 OCR 处理是一项艰巨的任务。准备好花费大量时间帮助软件检查结果和修复布局。在您的扫描件中,我看到很多质量很差的文本 :(。我认为没有任何 OCR 软件可以正常处理它。
答案4
认可 OmniPage是迄今为止我用过的最好的 OCR 程序。我相信它能识别罗马尼亚语文本;它对我的母语匈牙利语没有问题。您可以从链接下载试用版并使用它来转换您的书。不幸的是,完整版相当昂贵(499.99 美元)...