使用 pdfimages 提取图像时出现问题

使用 pdfimages 提取图像时出现问题

我想从以下 pdf 中提取图像:

https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808

我跑pdfimages -j file.pdf image

但我得到的是奇怪的图形,书页是空白的(好像文本是在此过程中丢失的其他图像)。这些图像似乎是将书数字化的人拍摄的原始图片的一部分。

pdfinfo file.pdf得到

Creator:        Canon CLC5151  PDF
Producer:       ilovepdf.com
CreationDate:   Tue Sep  1 19:50:40 2009 CEST
ModDate:        Mon Sep 24 16:11:26 2018 CEST
Tagged:         no
UserProperties: no
Suspects:       no
Form:           AcroForm
JavaScript:     no
Pages:          233
Encrypted:      no
Page size:      690.764 x 1039.76 pts
Page rot:       90
File size:      101724898 bytes
Optimized:      yes
PDF version:    1.6

答案1

请注意,您的 PDF 包含每个页面的图像,并且每个图像包含整个扫描仪区域。 PDF 可以通过转换、缩放等方式仅显示其实际拥有的信息的一部分......

在此输入图像描述

获取页面的另一种方法是:

$ pdftoppm -cropbox -jpeg file.pdf prefix

这将获取图像并根据 pdf 文件中的“裁剪框”裁剪它们(请参阅下面的评论)。

相关内容