我有一个 pdf 文件,其中包含一组书籍的扫描图像。它是一系列可用书籍的一部分这里。其中大部分都运行正常。有问题的文件的 URL 是这里。
该文件无法打开,多个命令行工具都无法对其进行任何操作。我还尝试了许多在线 pdf 修复服务,但都无济于事。
我只需要提取图像。通常我用 pdfimages 来做这件事。我对修复文件不感兴趣,除非它对于获取图像至关重要。另外,我对 pdf 代码一无所知!
以下是一些错误消息示例:
使用pdftocairo -pdf mn1.pdf mn1_repaired.pdf
我pdfimages mn1.pdf
得到
Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).
使用pdftk mn1.pdf
我得到:
Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
at java.lang.Throwable.getStackTrace(libgcj.so.15)
at java.lang.Throwable.stackTraceString(libgcj.so.15)
at java.lang.Throwable.printStackTrace(libgcj.so.15)
at java.lang.Throwable.printStackTrace(libgcj.so.15)
如果有人能找到一种方法来从这个文件中取出图像,我将不胜感激。最好有适用于 Linux 的解决方案。
答案1
我将 PDF 上传至本网站看起来它成功恢复了文件。但是,它确实在文件上加了水印,如果你需要没有水印的版本,它需要付费。尽管有水印,但所有文本仍然清晰可读。
这是恢复的文件:https://www.dropbox.com/s/sxubsn7rdy1olr3/pdf_recovered.pdf?dl=0