如何使用 OCR 将 PDF 中的文本图像替换为格式化文本

Question 1

即使是 Adobe 自己的软件也不擅长做到这一点，或者明确如何去做吧。

使用 Adobe Acrobat X，您可以通过菜单（视图 | 工具 | 识别文本）或单击工具栏中的“工具”，然后单击“工具”窗格中的“识别文本”来创建文本层。

然后，您可以选择对文档执行 OCR 或查找“可疑项”。 “可疑项”可能是看起来不正确的 OCR 结果（没有拼写检查？）。一旦您检查完可疑项，似乎就没有任何方法可以再次访问或编辑文本层，除非重新执行 OCR。

您可以选择页面范围来限制 OCR（例如，如果您有多语言文档），但不能将其限制为选择。

鉴于这是如此有用的功能，但令人失望的是 Adobe 没有使其非常用户友好。

编辑：另外两种可能的解决方案。

使用 ClearScan 的 Adobe Acrobat

使用 Adobe Acrobat 执行 OCR 时，您可以将 PDF 输出样式从默认的可搜索图像格式更改为 ClearScan。此格式实际上也会更改图像，用从 OCR 得到的轮廓替换字符。这既可以使您的 PDF 更易读，又可以添加文本层，但它确实会更改原始图像。

Infix PDF 编辑器

这个程序似乎确实能够显示文本层，但是修复 Adobe OCR 出错的地方（例如，在自己定位的段落中的孤立单词）似乎仍然很棘手。

遗憾的是，这些选项都不是免费提供的。

Answer

即使是 Adobe 自己的软件也不擅长做到这一点，或者明确如何去做吧。

使用 Adobe Acrobat X，您可以通过菜单（视图 | 工具 | 识别文本）或单击工具栏中的“工具”，然后单击“工具”窗格中的“识别文本”来创建文本层。

然后，您可以选择对文档执行 OCR 或查找“可疑项”。 “可疑项”可能是看起来不正确的 OCR 结果（没有拼写检查？）。一旦您检查完可疑项，似乎就没有任何方法可以再次访问或编辑文本层，除非重新执行 OCR。

您可以选择页面范围来限制 OCR（例如，如果您有多语言文档），但不能将其限制为选择。

鉴于这是如此有用的功能，但令人失望的是 Adobe 没有使其非常用户友好。

编辑：另外两种可能的解决方案。

使用 ClearScan 的 Adobe Acrobat

使用 Adobe Acrobat 执行 OCR 时，您可以将 PDF 输出样式从默认的可搜索图像格式更改为 ClearScan。此格式实际上也会更改图像，用从 OCR 得到的轮廓替换字符。这既可以使您的 PDF 更易读，又可以添加文本层，但它确实会更改原始图像。

Infix PDF 编辑器

这个程序似乎确实能够显示文本层，但是修复 Adobe OCR 出错的地方（例如，在自己定位的段落中的孤立单词）似乎仍然很棘手。

遗憾的是，这些选项都不是免费提供的。

Question 2

取决于您的具体情况（使用的字体、图表、需要多少清理...），但我使用 FineReader 专业版获得了良好的效果...扫描最常见的图像格式（扫描、tiff、jpg 等）并可以转换为 html 或 word 等...

它不是免费的，但你没有说你在寻找它。我以前做过很多 OCR 工作，它用一个低错误率。<<<--- 我不知道现在怎么样，但 5 年前我第一次得到这个时，我尝试了其他几个 OCR 软件包，文本识别准确率通常“糟糕透顶”……尽管他们会（正确地）宣传为 90-95-98%。问题是，即使准确率达到 99%，你也要查看每页文本中需要纠正的多个单词。这太高了，超出了我的容忍度。

我觉得零售价有点贵（但我通常喜欢免费的，购买软件更值得；我精通“gninux-ese”），但他们提供（或者在我购买时提供）从其他软件升级的优惠，价格约为其零售价的 50%，这也差不多是他们的升级价格。不过，我确实买了它，当时它大约是版本 6 或 7，当我有需要类似功能的新项目时——我购买了当时的当前版本的升级版。我上次购买的是 9.0。

我唯一的 [朦胧] 它的缺点是无法识别 Unicode 并且无法生成 unicode 文件。他们目前确实支持 186 种语言（从网站上读取）（据我所知，Prof. Ver. 中包含所有语言），但它将文件保存在区域编码字符集或“代码页”（ibm-cp850、ms-cp1250、iso-8859-1 等...）中，而不是 UTF-8——这是我的偏好。我正在扫描混合字母表文件，最终将使用 UTF-8 进行编辑。

他们的软件无需培训就能很好地完成工作。它可以被训练来识别用户特定的字母，尽管我发现这个过程并不像我希望的那样方便（但对于我所做的（或正在做的）大多数事情来说，这确实不是必需的）。

使用我拥有的版本（9），它还能够从屏幕截图中读取内容，这对于不支持复制/粘贴的程序来说有时很方便。

他们现在似乎也有一个先试后买的选项：网站：finereader.abbyy.com（专业产品@http://finereader.abbyy.com/professional）。

Answer