从扫描的 OCR PDF 中删除非文本

Question

现在每个人做的每件事是否都很难，因为程序比必要的更复杂？我读到的是你已经完成了，你已经掌握了对扫描文本图像的完全控制，除了进行一些小的重新格式化。

我只是不明白整个问题。当我们使用扫描仪附带的最简单的免费软件进行 OCR 时，它可以给我 3 个简单的东西。

文本，原始文本是我最想要的，没有格式，没有颜色，没有太多的文字换行，它只是它所看到的字母的“代码”。它不需要重新输入和重新拼写检查。该文本可以重新排列和重新格式化，调整大小，重新着色。人类很高兴不必重新输入它。它非常灵活，可调节且很小，它只是字符的代码。

在所有字母之间都留有空格的 OCR 软件应该重新配置或抛弃。如果因为空格存在而留有空格，那么空格也会再次存在。跳过我留下空格的部分。也许可以在 word/pdf 程序中进行一些重新字距调整（将字母推到一起）以将其压缩。
富文本格式化为分栏、分段、换行，并且可以着色或调整大小，但更改这些很容易。此 OCR 选择可用于将其按原样预先格式化并重新打印/使用它因为它是. 它仍然非常小，没有图形或图像。如果我使用格式化的文本，并想将其重新格式化为不同的布局/格式，我还不如只对文本进行 OCR 处理 (1)，使用 RAW 文本并快速重新流动、重新格式化并重新着色。
图表，由于无法识别字母而无法进行 OCR 的东西，可能是整个页面，也可能是页面的某些部分，例如签名，或者一些混乱的区域，或者图片项目。

此“扫描”部分可与 (1) 或 (2) 一起使用，以手动将图形放回重新格式化的文档中，或直接将其粘贴到格式化区域。如果页面的“图形”或背景噪音是不必要的，则 OCR 软件设置为仅执行 (1) 或 (2)，即 OCR 最擅长的。(1) 找出文本是什么，忽略其他所有内容。或者 (2) 找出文本以及文本的格式和布局。

此 (3) 图像无法进入标准 Windows 内容的“复制缓冲区”，无法同时包含原始文本或格式化文本，无法进行正常的跨程序复制粘贴。它不仅仅是文本，也不仅仅是 RTF，不仅仅是图片，它是一个混乱的组合。它可能是“特殊数据”复制粘贴。

它可以从 OCR 软件中打印出来，或者可以从 OCR 软件（它仍然在组装）中制作 PDF“打印”。基本上，计算机/程序复制缓冲区可以处理 (1) 文本，可以处理 (2) 带格式的文本。但是如果还要处理图像和富文本，那么其他程序识别它时，这不是“混淆数据”吗？

在包含文本的 PDF 文档中仅选择文本，会将文本移至复制粘贴缓冲区。您可以将该文本粘贴到任何内容中，并且已经这样做了，更改任何间距或段落和制表符都可以在 Wurd 程序中完成。

PDF 可以是纯文本、带格式的文本、文本和图像，除非受到保护，否则只需快速移动即可将它们全部分离。复制粘贴。将文本（您已经可以粘贴到 Word 中）粘贴到 PDF 中，即可制作出简单的纯文本 PDF。

如果它是文本的矢量（点和曲线）轮廓？不可见，是谁的妙招，在做这么简单的事情时可以使用它？有些程序员不能安于现状，它必须重新 OCR，它不再是原始文本代码。您不能将矢量文本/图形复制粘贴为文本字符。

使用矢量图形，您可以在 Photoshop 中重新设计它、弯曲它、重新调整它，它是矢量图形，但不是文本字符，现在很难重新排列或重新格式化。如果是矢量图形，尺寸会急剧增加。

如果将其栅格化（使其成为图片而不是矢量），这将最终确定轮廓，而不是“描边”矢量轮廓或对其进行样式化。将其再次转换为“图片/图形”，而不是 RTF 文本或矢量，会锁定流动、重新包装和重新格式化的便利性。栅格化后，尺寸将是最大尺寸。

如果你在将其输入 PDF 或 WORD 时遇到了麻烦，那么他们将重新编码 PDF，所以你问了一个问题，而我正在看着它思考：

你说对了
你对它有很强的控制力，甚至超出需要
你可以用它做任何事情
你怎么可能迷路了，你已经掌握了如何转换它
你既有图片，也有文字
你可以复制粘贴文本
你拥有一切。

_{自评论发布以来，本文已被编辑。}

Answer 1

现在每个人做的每件事是否都很难，因为程序比必要的更复杂？我读到的是你已经完成了，你已经掌握了对扫描文本图像的完全控制，除了进行一些小的重新格式化。

我只是不明白整个问题。当我们使用扫描仪附带的最简单的免费软件进行 OCR 时，它可以给我 3 个简单的东西。

文本，原始文本是我最想要的，没有格式，没有颜色，没有太多的文字换行，它只是它所看到的字母的“代码”。它不需要重新输入和重新拼写检查。该文本可以重新排列和重新格式化，调整大小，重新着色。人类很高兴不必重新输入它。它非常灵活，可调节且很小，它只是字符的代码。

在所有字母之间都留有空格的 OCR 软件应该重新配置或抛弃。如果因为空格存在而留有空格，那么空格也会再次存在。跳过我留下空格的部分。也许可以在 word/pdf 程序中进行一些重新字距调整（将字母推到一起）以将其压缩。
富文本格式化为分栏、分段、换行，并且可以着色或调整大小，但更改这些很容易。此 OCR 选择可用于将其按原样预先格式化并重新打印/使用它因为它是. 它仍然非常小，没有图形或图像。如果我使用格式化的文本，并想将其重新格式化为不同的布局/格式，我还不如只对文本进行 OCR 处理 (1)，使用 RAW 文本并快速重新流动、重新格式化并重新着色。
图表，由于无法识别字母而无法进行 OCR 的东西，可能是整个页面，也可能是页面的某些部分，例如签名，或者一些混乱的区域，或者图片项目。