从损坏的 PDF 中提取图像

从损坏的 PDF 中提取图像

我有一个 pdf 文件,其中包含一组书籍的扫描图像。它是一系列可用书籍的一部分这里。其中大部分都运行正常。有问题的文件的 URL 是这里

该文件无法打开,多个命令行工具都无法对其进行任何操作。我还尝试了许多在线 pdf 修复服务,但都无济于事。

我只需要提取图像。通常我用 pdfimages 来做这件事。我对修复文件不感兴趣,除非它对于获取图像至关重要。另外,我对 pdf 代码一无所知!

以下是一些错误消息示例:

使用pdftocairo -pdf mn1.pdf mn1_repaired.pdfpdfimages mn1.pdf得到

Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).

使用pdftk mn1.pdf我得到:

Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
   at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
   at java.lang.Throwable.getStackTrace(libgcj.so.15)
   at java.lang.Throwable.stackTraceString(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)

如果有人能找到一种方法来从这个文件中取出图像,我将不胜感激。最好有适用于 Linux 的解决方案。

答案1

我将 PDF 上传至本网站看起来它成功恢复了文件。但是,它确实在文件上加了水印,如果你需要没有水印的版本,它需要付费。尽管有水印,但所有文本仍然清晰可读。

这是恢复的文件:https://www.dropbox.com/s/sxubsn7rdy1olr3/pdf_recovered.pdf?dl=0

相关内容