我正在尝试使用 pdftotext 将大量 PDF(约 15000 个)转换为纯文本。除了少数 PDF(约 600 个)外,这个方法效果很好,我猜它们是“PDF 文件集”。
当我通过 pdftotext 运行这些 PDF 时,它只输出:
为了获得最佳体验,请在 Acrobat 9 或 Adobe Reader 9 或更高版本中打开此 PDF 作品集。立即获取 Adobe Reader!
如果我在 Adobe Reader 中打开这些 PDF,它们看起来就像一个文件中的两个或多个 PDF。
以前有人遇到过这个问题吗? 有没有什么工具可以用来自动转换这些 PDF?(直接转换为文本,或者至少转换为 pdftotext 可以理解的常规 PDF。)
答案1
您可以使用pdf。
它有一个pdfdetach
可以从 Pdf 组合中提取文件的实用程序。
pdfdetach -saveall your_pdf_portfolio.pdf
我不知道pdftotext
你用的是哪一个,但是 Xpdf 也有它自己的pdftotext
。