从 PDF 中删除 OCR

从 PDF 中删除 OCR

我的 PDF 文件包含损坏的 OCR。这是一堆手写的页面,有很多符号和缩写,我得到了这个带有自动生成的 OCR 的文件。如何删除文本层以获得更轻的文件(并消除不必要的 OCR)?

答案1

@dirkt 给出的命令对我不起作用,事实上它将文件大小从 560Mb 减少到 300 Mb,但我没有检查 diffpdf,所以不知道文件之间发生了什么变化。

对我有用的是阿帕奇PDF盒Pdfbox 开发人员在示例中提供了一个很好的小程序来删除文本和其他内容,但由于我没有任何 java 经验(或除 bash 之外的任何东西),我所做的是安装 openjdk-11-jdk-无头和 libpdfbox-java。

脚步:

  1. 将 pdfbox2.jar、fontbox2.jar、commons-logging.jar(pdfbox2 中的某些类需要)复制到文件夹中。
  2. 提取 Jar 文件,例如jar xf pdfbox2.jar.
  3. 获取与安装版本相同的 Pdfbox 源。
  4. 将RemoveAllText.java 复制到该文件夹org/apache/pdfbox/examples/util​​。
  5. 编译RemoveAllText.java javac org/apache/pdfbox/examples/util/RemoveAllText.java
  6. 现在你可以运行它,这将显示用法java org.apache.pdfbox.examples.util.RemoveAllText

如果有人遇到这个答案并且知道更好的方法,请发表评论。

相关内容