将 PDF 组合转换为纯文本(pdftotext?)

将 PDF 组合转换为纯文本(pdftotext?)

我正在尝试使用 pdftotext 将大量 PDF(约 15000 个)转换为纯文本。除了少数 PDF(约 600 个)外,这个方法效果很好,我猜它们是“PDF 文件集”。

当我通过 pdftotext 运行这些 PDF 时,它只输出:

为了获得最佳体验,请在 Acrobat 9 或 Adob​​e Reader 9 或更高版本中打开此 PDF 作品集。立即获取 Adob​​e Reader!

如果我在 Adob​​e Reader 中打开这些 PDF,它们看起来就像一个文件中的两个或多个 PDF。

以前有人遇到过这个问题吗? 有没有什么工具可以用来自动转换这些 PDF?(直接转换为文本,或者至少转换为 pdftotext 可以理解的常规 PDF。)

答案1

您可以使用pdf

它有一个pdfdetach可以从 Pdf 组合中提取文件的实用程序。

pdfdetach -saveall your_pdf_portfolio.pdf

我不知道pdftotext你用的是哪一个,但是 Xpdf 也有它自己的pdftotext

相关内容