检测PDF文件是否由图像组成

Question 1

pdfimages -list filename.pdf

应该做到这一点。这将为您提供 PDF 文件中包含的图像列表。

Answer

pdfimages -list filename.pdf

应该做到这一点。这将为您提供 PDF 文件中包含的图像列表。

Question 2

您可以安装 pdftotext 并查看它是否生成了更多输出字符串：

for file_name in *.pdf; do
   if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done

在 Debian 下，该实用程序位于 package 中poppler-utils。

Answer

您可以安装 pdftotext 并查看它是否生成了更多输出字符串：

for file_name in *.pdf; do
   if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done

在 Debian 下，该实用程序位于 package 中poppler-utils。

相关内容