我的 PDF 文件包含损坏的 OCR。这是一堆手写的页面,有很多符号和缩写,我得到了这个带有自动生成的 OCR 的文件。如何删除文本层以获得更轻的文件(并消除不必要的 OCR)?
答案1
@dirkt 给出的命令对我不起作用,事实上它将文件大小从 560Mb 减少到 300 Mb,但我没有检查 diffpdf,所以不知道文件之间发生了什么变化。
对我有用的是阿帕奇PDF盒Pdfbox 开发人员在示例中提供了一个很好的小程序来删除文本和其他内容,但由于我没有任何 java 经验(或除 bash 之外的任何东西),我所做的是安装 openjdk-11-jdk-无头和 libpdfbox-java。
脚步:
- 将 pdfbox2.jar、fontbox2.jar、commons-logging.jar(pdfbox2 中的某些类需要)复制到文件夹中。
- 提取 Jar 文件,例如
jar xf pdfbox2.jar
. - 获取与安装版本相同的 Pdfbox 源。
- 将RemoveAllText.java 复制到该文件夹
org/apache/pdfbox/examples/util
。 - 编译RemoveAllText.java
javac org/apache/pdfbox/examples/util/RemoveAllText.java
。 - 现在你可以运行它,这将显示用法
java org.apache.pdfbox.examples.util.RemoveAllText
。
如果有人遇到这个答案并且知道更好的方法,请发表评论。