从 .PDF 扫描书中提取文本

从 .PDF 扫描书中提取文本

我扫描了一本 PDF 格式的书,但是质量相当差:

在此处输入图片描述

(如果你想知道的话,这本书的语言是罗马尼亚语,是一本医学生理学书籍)

我想从这本书(1500 页)中提取文本,但保留图像原样。我真的不认为我有机会找到解决方案,所以我肯定会买这本书。

碰巧,有没有什么强大的软件可以满足我的需求?它还必须识别罗马尼亚语。

答案1

我之前发过回答详细说明如何使用楔形文字(开源软件)对 PDF 文件进行 OCR 以及如何创建 PDF 文件,其中识别的文本位于原始图像“后面”的隐藏文本层中。据我所知,楔形文字实际上也支持罗马尼亚语。

虽然该特定解决方案适用于 Linux,但楔形文字也可用于 Windows。

答案2

Adobe Acrobat Professional 可以做到这一点。我不确定是否有罗马尼亚语版本...

答案3

ABBYY Fine Reader是一款非常强大的 OCR 软件。它可以处理非常复杂的布局并支持多种格式(包括 pdf)。罗马尼亚语支持词典,即软件在识别过程中使用词典进行假设优先排序。(这里)。

无论如何,对扫描质量较差的科学文献进行 OCR 处理是一项艰巨的任务。准备好花费大量时间帮助软件检查结果和修复布局。在您的扫描件中,我看到很多质量很差的文本 :(。我认为没有任何 OCR 软件可以正常处理它。

答案4

认可 OmniPage是迄今为止我用过的最好的 OCR 程序。我相信它能识别罗马尼亚语文本;它对我的母语匈牙利语没有问题。您可以从链接下载试用版并使用它来转换您的书。不幸的是,完整版相当昂贵(499.99 美元)...

相关内容