从 PDF 中删除 OCR

Question

@dirkt 给出的命令对我不起作用，事实上它将文件大小从 560Mb 减少到 300 Mb，但我没有检查 diffpdf，所以不知道文件之间发生了什么变化。

对我有用的是阿帕奇PDF盒Pdfbox 开发人员在示例中提供了一个很好的小程序来删除文本和其他内容，但由于我没有任何 java 经验（或除 bash 之外的任何东西），我所做的是安装 openjdk-11-jdk-无头和 libpdfbox-java。

脚步：

将 pdfbox2.jar、fontbox2.jar、commons-logging.jar（pdfbox2 中的某些类需要）复制到文件夹中。
提取 Jar 文件，例如jar xf pdfbox2.jar.
获取与安装版本相同的 Pdfbox 源。
将RemoveAllText.java 复制到该文件夹org/apache/pdfbox/examples/util。
编译RemoveAllText.java javac org/apache/pdfbox/examples/util/RemoveAllText.java。
现在你可以运行它，这将显示用法java org.apache.pdfbox.examples.util.RemoveAllText。

如果有人遇到这个答案并且知道更好的方法，请发表评论。

Answer 1

@dirkt 给出的命令对我不起作用，事实上它将文件大小从 560Mb 减少到 300 Mb，但我没有检查 diffpdf，所以不知道文件之间发生了什么变化。

对我有用的是阿帕奇PDF盒Pdfbox 开发人员在示例中提供了一个很好的小程序来删除文本和其他内容，但由于我没有任何 java 经验（或除 bash 之外的任何东西），我所做的是安装 openjdk-11-jdk-无头和 libpdfbox-java。

脚步：

将 pdfbox2.jar、fontbox2.jar、commons-logging.jar（pdfbox2 中的某些类需要）复制到文件夹中。
提取 Jar 文件，例如jar xf pdfbox2.jar.
获取与安装版本相同的 Pdfbox 源。
将RemoveAllText.java 复制到该文件夹org/apache/pdfbox/examples/util。
编译RemoveAllText.java javac org/apache/pdfbox/examples/util/RemoveAllText.java。
现在你可以运行它，这将显示用法java org.apache.pdfbox.examples.util.RemoveAllText。

如果有人遇到这个答案并且知道更好的方法，请发表评论。

相关内容