PDF 是扫描图像的绝佳存档格式,但 Acrobat 不允许您编辑文档的文本层(可复制和粘贴的部分),因此您只能获得原始 OCR。是否有其他免费软件可以让您编辑文本层?
答案1
免费的 PDF 编辑器非常少。
我知道的唯一免费的是开发办公室和Sun PDF 导入扩展。
来自 techsupportalert 文章PDF 文件允许以 100% 布局精度进行编辑:
Sun PDF Import ExtensionOpenOffice 搭配 Sun PDF Import Extension 可生成混合 PDF / ODF 文件。所创建的文件将具有普通的 .pdf 文件扩展名。它本身就是 PDF 文件,可以使用任何 PDF 查看器(例如 Adobe Reader、PDF-XChange Viewer 或 Foxit Reader)查看。
除此之外,它还包含一个源 ODF 文件,可以使用 OpenOffice 直接从 PDF 文件打开进行编辑,而不会丢失任何布局、书签、超链接或格式。
要创建混合 PDF 文件,请运行安装了 Sun PDF Import Extension 的 OpenOffice,选择“文件”,选择“导出为 PDF”,将打开一个如屏幕截图所示的 PDF 选项窗口,然后勾选“创建混合文件”并单击“导出”。
此混合 PDF 文件将两种文件格式合二为一,让您无需保留两种单独的文件格式。它既可用于共享,也可用于 PDF 阅读器查看,同时又可以像普通 OpenOffice 文件一样打开并进行完美编辑。将混合文件命名为以“-odf.pdf”结尾的文件以区别于普通 PDF 文件可能是一个好主意。
Sun PDF Import Extension 与 OpenOffice.org(3.0 或更高版本)或 StarOffice 9 兼容。
答案2
转换为 PDF 的扫描文档最初不包含任何文本。它由每页覆盖的整页像素图像组成。该图像可能包含也可能不包含与字符形状相同的区域,人类大脑将其识别为字母和“文本”。
从编程上来说,它不是文本,只是像素。
为了将真实的东西插入到从扫描图像生成的 PDF 中文本,只能采用 OCR 流程。这将添加PDF 页面的额外内容层。该额外层将包含像素形状后面所有被识别(或错误识别)的字符,作为真实字形来自真实字体。但是,这些真实文本字符确实具有特殊的 PDF 标记,标记它们不会由查看器(或打印时)以视觉方式呈现。它们的存在仅在以下情况下才会显示:搜索(或突出显示)文本(或在 Acrobat 文本修饰工具处于活动状态时尝试从图像中复制和粘贴区域)。
那么,你真正的问题是这样的:“我扫描的 PDF 文档的 OCR 结果不太理想。并非所有字符都能正确识别。我想编辑隐藏文本以使 OCR 结果更好。如何使用免费工具做到这一点?” ?
编辑: 我通常不使用 Acrobat。但刚才我有机会在同事的电脑上查看了 9.1.3 专业版。
我检查的第一件事是:Acroabat 真的不允许编辑 OCR 文本吗?
回答:不,这不是真的。我可以使用 Acrobat 的内置 OCR 引擎来捕获随机扫描文档的文本,该文档是我在谷歌上搜索并从网上下载的。之后,该文本可以完美地使用TouchUp 文本工具可通过高级编辑菜单项。
程序:
- 启动 Acrobat Professional;加载扫描的 PDF 文档。
- 在里面文档菜单,点击OCR 文本识别并选择使用 OCR 识别文本。
- 确定要对哪些页面进行 OCR识别文本窗户。
- 启动该过程并等待其完成。
- 现在使用工具菜单,*高级编辑”,然后启动TouchUp 文本工具。
- 从这里开始你将自己解决问题...
答案3
看来您所说的“文本流”是指 PDF 中的文本数据。不确定。如果是这样,我会使用标准剪贴板和任何纯文本编辑器(我使用 KEDIT 是因为它的列编辑功能)来捕获数据并进行编辑。问题是,使用这种方法会丢失任何格式,有时表格的数据顺序会混乱。但是,对于简单的捕获,它是有效的。