检测PDF文件是否由图像组成

检测PDF文件是否由图像组成

我正在尝试预处理大量 PDF 文件,其中许多文件实际上不是文本,而是图像,以便将它们移动到正确的位置进行 OCR 处理。

问题是我尝试在 OCR 之前检测 PDF 是否基于图像,但到目前为止没有成功。使用“ pdffonts filename”被认为是正确的方法,但只有图像的 PDF 也有字体!

答案1

pdfimages -list filename.pdf

应该做到这一点。这将为您提供 PDF 文件中包含的图像列表。

答案2

您可以安装 pdftotext 并查看它是否生成了更多输出字符串:

for file_name in *.pdf; do
   if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done

在 Debian 下,该实用程序位于 package 中poppler-utils

相关内容