我有一个从扫描文档创建的 PDF。OCR 用于识别文本。在 Acrobat 中,如果我选择文本并单击“带格式复制”,我可以将格式化的文本粘贴到 Word 中,因此除了纯文本和可能的大小之外,字体和颜色似乎也嵌入在文档中。
有没有办法使用这些信息来创建一个只包含格式化的 OCRd 文本而不包含扫描图像的 PDF。目前,我的文档只显示扫描的图像,文本位于不可见的图层上。我想创建一个 PDF 文档,删除扫描的图像,并显示当前隐藏的格式化文本。
下面的帖子有一节关于“我们如何使不可见的文本变得可见?” PDF 经过 Ghostscript 运行后所有单词都多出一个空白
但是,这样做不会显示正确的文本格式(在 Word 中粘贴时保留),并且我还想删除扫描的图像,以便最终的 PDF 仅包含格式化(颜色、字体、大小)矢量字体,而没有图像。
答案1
现在每个人做的每件事是否都很难,因为程序比必要的更复杂?我读到的是你已经完成了,你已经掌握了对扫描文本图像的完全控制,除了进行一些小的重新格式化。
我只是不明白整个问题。当我们使用扫描仪附带的最简单的免费软件进行 OCR 时,它可以给我 3 个简单的东西。
文本,原始文本是我最想要的,没有格式,没有颜色,没有太多的文字换行,它只是它所看到的字母的“代码”。它不需要重新输入和重新拼写检查。该文本可以重新排列和重新格式化,调整大小,重新着色。人类很高兴不必重新输入它。它非常灵活,可调节且很小,它只是字符的代码。
在所有字母之间都留有空格的 OCR 软件应该重新配置或抛弃。如果因为空格存在而留有空格,那么空格也会再次存在。跳过我留下空格的部分。也许可以在 word/pdf 程序中进行一些重新字距调整(将字母推到一起)以将其压缩。
富文本格式化为分栏、分段、换行,并且可以着色或调整大小,但更改这些很容易。此 OCR 选择可用于将其按原样预先格式化并重新打印/使用它因为它是. 它仍然非常小,没有图形或图像。如果我使用格式化的文本,并想将其重新格式化为不同的布局/格式,我还不如只对文本进行 OCR 处理 (1),使用 RAW 文本并快速重新流动、重新格式化并重新着色。
图表,由于无法识别字母而无法进行 OCR 的东西,可能是整个页面,也可能是页面的某些部分,例如签名,或者一些混乱的区域,或者图片项目。
此“扫描”部分可与 (1) 或 (2) 一起使用,以手动将图形放回重新格式化的文档中,或直接将其粘贴到格式化区域。如果页面的“图形”或背景噪音是不必要的,则 OCR 软件设置为仅执行 (1) 或 (2),即 OCR 最擅长的。(1) 找出文本是什么,忽略其他所有内容。或者 (2) 找出文本以及文本的格式和布局。
此 (3) 图像无法进入标准 Windows 内容的“复制缓冲区”,无法同时包含原始文本或格式化文本,无法进行正常的跨程序复制粘贴。它不仅仅是文本,也不仅仅是 RTF,不仅仅是图片,它是一个混乱的组合。它可能是“特殊数据”复制粘贴。
它可以从 OCR 软件中打印出来,或者可以从 OCR 软件(它仍然在组装)中制作 PDF“打印”。基本上,计算机/程序复制缓冲区可以处理 (1) 文本,可以处理 (2) 带格式的文本。但是如果还要处理图像和富文本,那么其他程序识别它时,这不是“混淆数据”吗?
在包含文本的 PDF 文档中仅选择文本,会将文本移至复制粘贴缓冲区。您可以将该文本粘贴到任何内容中,并且已经这样做了,更改任何间距或段落和制表符都可以在 Wurd 程序中完成。
PDF 可以是纯文本、带格式的文本、文本和图像,除非受到保护,否则只需快速移动即可将它们全部分离。复制粘贴。将文本(您已经可以粘贴到 Word 中)粘贴到 PDF 中,即可制作出简单的纯文本 PDF。
如果它是文本的矢量(点和曲线)轮廓?不可见,是谁的妙招,在做这么简单的事情时可以使用它?有些程序员不能安于现状,它必须重新 OCR,它不再是原始文本代码。您不能将矢量文本/图形复制粘贴为文本字符。
使用矢量图形,您可以在 Photoshop 中重新设计它、弯曲它、重新调整它,它是矢量图形,但不是文本字符,现在很难重新排列或重新格式化。如果是矢量图形,尺寸会急剧增加。
如果将其栅格化(使其成为图片而不是矢量),这将最终确定轮廓,而不是“描边”矢量轮廓或对其进行样式化。将其再次转换为“图片/图形”,而不是 RTF 文本或矢量,会锁定流动、重新包装和重新格式化的便利性。栅格化后,尺寸将是最大尺寸。
如果你在将其输入 PDF 或 WORD 时遇到了麻烦,那么他们将重新编码 PDF,所以你问了一个问题,而我正在看着它思考:
- 你说对了
- 你对它有很强的控制力,甚至超出需要
- 你可以用它做任何事情
- 你怎么可能迷路了,你已经掌握了如何转换它
- 你既有图片,也有文字
- 你可以复制粘贴文本
- 你拥有一切。
自评论发布以来,本文已被编辑。