当我尝试在 Linux 中使用 pdftotext 命令从 PDF 中提取文本时,出现错误

当我尝试在 Linux 中使用 pdftotext 命令从 PDF 中提取文本时,出现错误

root@kali:~/Desktop# pdftotext PaySlip.pdf

语法错误:缺少“endstream”或流长度不正确

这是什么意思?是不是找不到 PDF 文件的结尾?
请帮忙。

答案1

PDF 文件包含对象;对象可以包含流(通常是压缩的),流以 结尾endstream。在文本编辑器中打开它,以更好地了解它的外观。

因此,您的 PDF 文件中至少有一个对象可能已损坏,因为给定的流长度与endstream应在的位置不匹配。其他 PDF 工具可能会或可能不会关心这种不一致(这就是为什么您可以对 PDF 文件做一些有趣的事情)。

因此:修复 PDF 文件,可以手动修复,或者您可以尝试类似的工具mutool

相关内容