如何在从 PDF 中提取图像时排除蒙版图像?

如何在从 PDF 中提取图像时排除蒙版图像?

我一直用pdfimages它来从 PDF 中提取图像。它可以提取以下所有类型的图像

图像 - 不透明图像

mask - 单色遮罩图像

smask - 软蒙版图像

模板 - 用于绘制颜色或图案的单色蒙版图像

我如何才能提取不透明类型的图像并排除 mask、smask 和 stencil 图像?

答案1

我知道我迟到了,但这是我的两点看法:1)使用 pdfimages 提取所有图像(常规图像和 smask 图像)

pdfimages -j file.pdf images/image

2)获取 smask 名称并将其删除(除去零前导名称)

pdfimages -list file.pdf  | grep smask | column -t|awk '{print $2}' | xargs -I '{}' printf "%03d\n" '{}' | xargs -I '{}' rm images/image-'{}'.ppm

相关内容