我正在尝试预处理大量 PDF 文件,其中许多文件实际上不是文本,而是图像,以便将它们移动到正确的位置进行 OCR 处理。
问题是我尝试在 OCR 之前检测 PDF 是否基于图像,但到目前为止没有成功。使用“ pdffonts filename
”被认为是正确的方法,但只有图像的 PDF 也有字体!
答案1
pdfimages -list filename.pdf
应该做到这一点。这将为您提供 PDF 文件中包含的图像列表。
答案2
您可以安装 pdftotext 并查看它是否生成了更多输出字符串:
for file_name in *.pdf; do
if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi
done
在 Debian 下,该实用程序位于 package 中poppler-utils
。