我想将 PDF 转换为仅文本(作为 unicode)和基于图像的 PDF。
所以pdf文档应该只包含图像和文本。我想在 GNU/Linux 环境中执行此操作,如果有一个可以从命令行执行的实用程序对我来说会更好。
答案1
PDF 文件格式是一种以 PostScript 文件为核心的复杂信封。如果您需要一个格式良好的 PDF,对其进行搜索和索引,并以人类可读的方式提取数据,如果 PDF 是由简单打包数据而不进行优化的 PDF 生成器生成的,那么您可以做的事情很少。 Linux 中有一些用于管理和优化 PDF 的工具,但它们都不能解决 PDF 的所有问题。例如,pdftools、pdftk 等。