从扫描的 OCR PDF 中删除非文本

从扫描的 OCR PDF 中删除非文本

我有一个从扫描文档创建的 PDF。OCR 用于识别文本。在 Acrobat 中,如果我选择文本并单击“带格式复制”,我可以将格式化的文本粘贴到 Word 中,因此除了纯文本和可能的大小之外,字体和颜色似乎也嵌入在文档中。

有没有办法使用这些信息来创建一个只包含格式化的 OCRd 文本而不包含扫描图像的 PDF。目前,我的文档只显示扫描的图像,文本位于不可见的图层上。我想创建一个 PDF 文档,删除扫描的图像,并显示当前隐藏的格式化文本。

下面的帖子有一节关于“我们如何使不可见的文本变得可见?” PDF 经过 Ghostscript 运行后所有单词都多出一个空白

但是,这样做不会显示正确的文本格式(在 Word 中粘贴时保留),并且我还想删除扫描的图像,以便最终的 PDF 仅包含格式化(颜色、字体、大小)矢量字体,而没有图像。

答案1

现在每个人做的每件事是否都很难,因为程序比必要的更复杂?我读到的是你已经完成了,你已经掌握了对扫描文本图像的完全控制,除了进行一些小的重新格式化。

我只是不明白整个问题。当我们使用扫描仪附带的最简单的免费软件进行 OCR 时,它可以给我 3 个简单的东西。

  1. 文本,原始文本是我最想要的,没有格式,没有颜色,没有太多的文字换行,它只是它所看到的字母的“代码”。它不需要重新输入和重新拼写检查。该文本可以重新排列和重新格式化,调整大小,重新着色。人类很高兴不必重新输入它。它非常灵活,可调节且很小,它只是字符的代码。

    在所有字母之间都留有空格的 OCR 软件应该重新配置或抛弃。如果因为空格存在而留有空格,那么空格也会再次存在。跳过我留下空格的部分。也许可以在 word/pdf 程序中进行一些重新字距调整(将字母推到一起)以将其压缩。

  2. 富文本格式化为分栏、分段、换行,并且可以着色或调整大小,但更改这些很容易。此 OCR 选择可用于将其按原样预先格式化并重新打印/使用它因为它是. 它仍然非常小,没有图形或图像。如果我使用格式化的文本,并想将其重新格式化为不同的布局/格式,我还不如只对文本进行 OCR 处理 (1),使用 RAW 文本并快速重新流动、重新格式化并重新着色。

  3. 图表,由于无法识别字母而无法进行 OCR 的东西,可能是整个页面,也可能是页面的某些部分,例如签名,或者一些混乱的区域,或者图片项目。

此“扫描”部分可与 (1) 或 (2) 一起使用,以手动将图形放回重新格式化的文档中,或直接将其粘贴到格式化区域。如果页面的“图形”或背景噪音是不必要的,则 OCR 软件设置为仅执行 (1) 或 (2),即 OCR 最擅长的。(1) 找出文本是什么,忽略其他所有内容。或者 (2) 找出文本以及文本的格式和布局。

此 (3) 图像无法进入标准 Windows 内容的“复制缓冲区”,无法同时包含原始文本或格式化文本,无法进行正常的跨程序复制粘贴。它不仅仅是文本,也不仅仅是 RTF,不仅仅是图片,它是一个混乱的组合。它可能是“特殊数据”复制粘贴。

它可以从 OCR 软件中打印出来,或者可以从 OCR 软件(它仍然在组装)中制作 PDF“打印”。基本上,计算机/程序复制缓冲区可以处理 (1) 文本,可以处理 (2) 带格式的文本。但是如果还要处理图像和富文本,那么其他程序识别它时,这不是“混淆数据”吗?

在包含文本的 PDF 文档中仅选择文本,会将文本移至复制粘贴缓冲区。您可以将该文本粘贴到任何内容中,并且已经这样做了,更改任何间距或段落和制表符都可以在 Wurd 程序中完成。

PDF 可以是纯文本、带格式的文本、文本和图像,除非受到保护,否则只需快速移动即可将它们全部分离。复制粘贴。将文本(您已经可以粘贴到 Word 中)粘贴到 PDF 中,即可制作出简单的纯文本 PDF。

如果它是文本的矢量(点和曲线)轮廓?不可见,是谁的妙招,在做这么简单的事情时可以使用它?有些程序员不能安于现状,它必须重新 OCR,它不再是原始文本代码。您不能将矢量文本/图形复制粘贴为文本字符。

使用矢量图形,您可以在 Photoshop 中重新设计它、弯曲它、重新调整它,它是矢量图形,但不是文本字符,现在很难重新排列或重新格式化。如果是矢量图形,尺寸会急剧增加。

如果将其栅格化(使其成为图片而不是矢量),这将最终确定轮廓,而不是“描边”矢量轮廓或对其进行样式化。将其再次转换为“图片/图形”,而不是 RTF 文本或矢量,会锁定流动、重新包装和重新格式化的便利性。栅格化后,尺寸将是最大尺寸。

如果你在将其输入 PDF 或 WORD 时遇到了麻烦,那么他们将重新编码 PDF,所以你问了一个问题,而我正在看着它思考:

  1. 你说对了
  2. 你对它有很强的控制力,甚至超出需要
  3. 你可以用它做任何事情
  4. 你怎么可能迷路了,你已经掌握了如何转换它
  5. 你既有图片,也有文字
  6. 你可以复制粘贴文本
  7. 你拥有一切。

自评论发布以来,本文已被编辑。

相关内容