从损坏的 PDF 中提取图像

2024-6-16 • tag-icon

pdf

我有一个 pdf 文件，其中包含一组书籍的扫描图像。它是一系列可用书籍的一部分这里。其中大部分都运行正常。有问题的文件的 URL 是这里。

该文件无法打开，多个命令行工具都无法对其进行任何操作。我还尝试了许多在线 pdf 修复服务，但都无济于事。

我只需要提取图像。通常我用 pdfimages 来做这件事。我对修复文件不感兴趣，除非它对于获取图像至关重要。另外，我对 pdf 代码一无所知！

以下是一些错误消息示例：

使用pdftocairo -pdf mn1.pdf mn1_repaired.pdf我pdfimages mn1.pdf得到

Syntax Error: Invalid XRef entry
Syntax Error: Top-level pages object is wrong type (null)
Wrong page range given: the first page (1) can not be after the last page (0).

使用pdftk mn1.pdf我得到：

Error: Unexpected Exception in open_reader()
Unhandled Java Exception in main():
java.lang.NullPointerException
   at gnu.gcj.runtime.NameFinder.lookup(libgcj.so.15)
   at java.lang.Throwable.getStackTrace(libgcj.so.15)
   at java.lang.Throwable.stackTraceString(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)
   at java.lang.Throwable.printStackTrace(libgcj.so.15)

如果有人能找到一种方法来从这个文件中取出图像，我将不胜感激。最好有适用于 Linux 的解决方案。

答案1

我将 PDF 上传至本网站看起来它成功恢复了文件。但是，它确实在文件上加了水印，如果你需要没有水印的版本，它需要付费。尽管有水印，但所有文本仍然清晰可读。

这是恢复的文件：https://www.dropbox.com/s/sxubsn7rdy1olr3/pdf_recovered.pdf?dl=0

答案1

相关内容