从 .PDF 扫描书中提取文本

Question 1

我之前发过回答详细说明如何使用楔形文字（开源软件）对 PDF 文件进行 OCR 以及如何创建 PDF 文件，其中识别的文本位于原始图像“后面”的隐藏文本层中。据我所知，楔形文字实际上也支持罗马尼亚语。

虽然该特定解决方案适用于 Linux，但楔形文字也可用于 Windows。

Answer

我之前发过回答详细说明如何使用楔形文字（开源软件）对 PDF 文件进行 OCR 以及如何创建 PDF 文件，其中识别的文本位于原始图像“后面”的隐藏文本层中。据我所知，楔形文字实际上也支持罗马尼亚语。

虽然该特定解决方案适用于 Linux，但楔形文字也可用于 Windows。

Question 2

Adobe Acrobat Professional 可以做到这一点。我不确定是否有罗马尼亚语版本...

Answer

Adobe Acrobat Professional 可以做到这一点。我不确定是否有罗马尼亚语版本...

Question 3

ABBYY Fine Reader是一款非常强大的 OCR 软件。它可以处理非常复杂的布局并支持多种格式（包括 pdf）。罗马尼亚语支持词典，即软件在识别过程中使用词典进行假设优先排序。（这里）。

无论如何，对扫描质量较差的科学文献进行 OCR 处理是一项艰巨的任务。准备好花费大量时间帮助软件检查结果和修复布局。在您的扫描件中，我看到很多质量很差的文本 :(。我认为没有任何 OCR 软件可以正常处理它。

Answer

ABBYY Fine Reader是一款非常强大的 OCR 软件。它可以处理非常复杂的布局并支持多种格式（包括 pdf）。罗马尼亚语支持词典，即软件在识别过程中使用词典进行假设优先排序。（这里）。

无论如何，对扫描质量较差的科学文献进行 OCR 处理是一项艰巨的任务。准备好花费大量时间帮助软件检查结果和修复布局。在您的扫描件中，我看到很多质量很差的文本 :(。我认为没有任何 OCR 软件可以正常处理它。

Question 4

认可 OmniPage是迄今为止我用过的最好的 OCR 程序。我相信它能识别罗马尼亚语文本；它对我的母语匈牙利语没有问题。您可以从链接下载试用版并使用它来转换您的书。不幸的是，完整版相当昂贵（499.99 美元）...

Answer

认可 OmniPage是迄今为止我用过的最好的 OCR 程序。我相信它能识别罗马尼亚语文本；它对我的母语匈牙利语没有问题。您可以从链接下载试用版并使用它来转换您的书。不幸的是，完整版相当昂贵（499.99 美元）...

相关内容