如何从扫描件和源 Word 文档制作可搜索的 PDF 文档?

如何从扫描件和源 Word 文档制作可搜索的 PDF 文档?

嗯,我有一个扫描的 PDF,其中手动做了一些细微的更改,还有一个源文件。我希望制作一个可搜索的 PDF(基于源文本,更改将保持原样)。

我正在寻找一款免费(甚至更好 - 便携)软件,该软件可以让我以某种方式“合并”扫描图像和源 DOC 文件中的文本。因此看起来图像是可选择和可搜索的。

UPD:用例:我有源 DOC 文件。然后,我将其打印出来。然后,我在打印文档的纸张上手写了些笔记。然后 - 我将其扫描出来。我想要的是 - 使用扫描的图像制作 PDF,但同时该图像上的文本应该是可选择和可搜索的。类似于 Acrobat 的“OCR”功能,但不进行实际的 OCR - 因为我有原始源文本 - 并且使用免费软件和便携式软件。

答案1

作为这个答案,你可以使用免费的命令行 pdf 工具来完成pdftk, 如下:

$ pdftk file1.pdf multibackground file2.pdf output combinedfile.pdf

使用可搜索文本作为背景并将扫描的文件作为前景,否则看到叠加的文本会很混乱。

在 Acrobat Reader 中,“搜索​​”命令的文本突出显示将显示在图像前面。

答案2

  • 在纸上用与印刷文本明显不同的颜色进行修改
  • 将文档扫描为图像文件,最好是 .tif 格式,以避免压缩伪影

选项A)- 适用于 Word 2010 及以上版本

  • 将图片导入到 word 中
  • 将文本颜色设置为“透明”:
    选择图片,然后转到“图片格式”>“颜色”或“图片工具”>“格式”>“颜色”。
    选择“设置透明颜色”。(从MS Word 帮助

设置透明颜色

  • 将图像缩放至整页
  • 设置图像显示在文本后面(图片格式 -> 换行文字 -> 显示在文本后面)
  • 调整图像的位置,直到其与文档的文本相匹配
  • 导出你的 pdf

选项B)- 可能会得到更好的结果

使用免费的图像编辑器(例如 Gimp)去除文本颜色。然后导入到 Word 中。

如果这个答案有帮助的话,我可以详细说明。

答案3

亿豪科技发布了将 Word 文档转换为 PDF(又名便携式文档格式)的三种方法,其中两种我确信可以正常工作,但我不确定 Zamar 是否可以。

  1. 前往Zamzar 网站扎姆扎尔提供免费的格式转换功能。如果您不需要频繁将 Word 文档转换为 PDF,那么此选项非常有用。

  2. 购买并安装 Adob​​e Acrobat。截至本文发布时,Adobe Acrobat 标准版售价约为 300 美元(现在仅售 139 美元)。安装 Acrobat 后,[Microsoft Word] 中会添加新的“另存为 PDF”选项。大多数图书馆、学校、索尼 PC、工作笔记本电脑(贵公司提供的)都已安装 Adob​​e Acrobat。

  3. Microsoft Office 插件:Microsoft Save as PDF 或 XPS此插件允许您在八个 2007 Microsoft Office 程序中导出并保存为 PDF 和 XPS 格式。

答案4

改变解决问题的方法,使用带有触控笔的计算机,例如 Microsoft Surface Pro。您可以在网上找到更便宜的替代品。

这样,您的笔记将保持良好的质量并可搜索。您将省去打印和扫描的麻烦。

相关内容