如何使用 OCR 将 PDF 中的文本图像替换为格式化文本

如何使用 OCR 将 PDF 中的文本图像替换为格式化文本

我从其他人那里收到了很多 PDF,其中包含扫描的旧文档。不幸的是,有时扫描件上的文字虽然清晰可辨,但看起来却很模糊,难以阅读。

到目前为止,我能够做的是使用 OCR 将文本提取到 Word 文档中。但是,由于这些旧文档通常包含插图和复杂的格式,我真正想做的是删除旧的粗糙文本并用计算机生成的字体替换它。换句话说,我希望尽可能保留 PDF 及其页面的格式,同时通过将其替换为 Times New Roman 等字体来“清理”文本。

几天来我一直在网上寻找一种简单、可自动化的方法来执行此类清理,但目前还没有找到任何结果。看起来肯定应该有一种方法可以做到这一点,它看起来并不复杂,但也许我忽略了这个问题的某些方面,使其超出了目前 OCR 可实现的范围。

有什么建议么?

答案1

即使是 Adob​​e 自己的软件也不擅长做到这一点,或者明确如何去做吧。

使用 Adob​​e Acrobat X,您可以通过菜单(视图 | 工具 | 识别文本)或单击工具栏中的“工具”,然后单击“工具”窗格中的“识别文本”来创建文本层。

然后,您可以选择对文档执行 OCR 或查找“可疑项”。 “可疑项”可能是看起来不正确的 OCR 结果(没有拼写检查?)。一旦您检查完可疑项,似乎就没有任何方法可以再次访问或编辑文本层,除非重新执行 OCR。

您可以选择页面范围来限制 OCR(例如,如果您有多语言文档),但不能将其限制为选择。

鉴于这是如此有用的功能,但令人失望的是 Adob​​e 没有使其非常用户友好。

编辑:另外两种可能的解决方案。

使用 ClearScan 的 Adob​​e Acrobat

使用 Adob​​e Acrobat 执行 OCR 时,您可以将 PDF 输出样式从默认的可搜索图像格式更改为 ClearScan。此格式实际上也会更改图像,用从 OCR 得到的轮廓替换字符。这既可以使您的 PDF 更易读,又可以添加文本层,但它确实会更改原始图像。

Infix PDF 编辑器

这个程序似乎确实能够显示文本层,但是修复 Adob​​e OCR 出错的地方(例如,在自己定位的段落中的孤立单词)似乎仍然很棘手。

遗憾的是,这些选项都不是免费提供的。

答案2

取决于您的具体情况(使用的字体、图表、需要多少清理...),但我使用 FineReader 专业版获得了良好的效果...扫描最常见的图像格式(扫描、tiff、jpg 等)并可以转换为 html 或 word 等...

它不是免费的,但你没有说你在寻找它。我以前做过很多 OCR 工作,它用一个低错误率。<<<--- 我不知道现在怎么样,但 5 年前我第一次得到这个时,我尝试了其他几个 OCR 软件包,文本识别准确率通常“糟糕透顶”……尽管他们会(正确地)宣传为 90-95-98%。问题是,即使准确率达到 99%,你也要查看每页文本中需要纠正的多个单词。这太高了,超出了我的容忍度。

我觉得零售价有点贵(但我通常喜欢免费的,购买软件更值得;我精通“gninux-ese”),但他们提供(或者在我购买时提供)从其他软件升级的优惠,价格约为其零售价的 50%,这也差不多是他们的升级价格。不过,我确实买了它,当时它大约是版本 6 或 7,当我有需要类似功能的新项目时——我购买了当时的当前版本的升级版。我上次购买的是 9.0。

我唯一的 [朦胧] 它的缺点是无法识别 Unicode 并且无法生成 unicode 文件。他们目前确实支持 186 种语言(从网站上读取)(据我所知,Prof. Ver. 中包含所有语言),但它将文件保存在区域编码字符集或“代码页”(ibm-cp850、ms-cp1250、iso-8859-1 等...)中,而不是 UTF-8——这是我的偏好。我正在扫描混合字母表文件,最终将使用 UTF-8 进行编辑。

他们的软件无需培训就能很好地完成工作。它可以被训练来识别用户特定的字母,尽管我发现这个过程并不像我希望的那样方便(但对于我所做的(或正在做的)大多数事情来说,这确实不是必需的)。

使用我拥有的版本(9),它还能够从屏幕截图中读取内容,这对于不支持复制/粘贴的程序来说有时很方便。

他们现在似乎也有一个先试后买的选项:网站:finereader.abbyy.com(专业产品@http://finereader.abbyy.com/professional)。

相关内容