我想从以下 pdf 中提取图像:
https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808
我跑pdfimages -j file.pdf image
但我得到的是奇怪的图形,书页是空白的(好像文本是在此过程中丢失的其他图像)。这些图像似乎是将书数字化的人拍摄的原始图片的一部分。
我pdfinfo file.pdf
得到
Creator: Canon CLC5151 PDF
Producer: ilovepdf.com
CreationDate: Tue Sep 1 19:50:40 2009 CEST
ModDate: Mon Sep 24 16:11:26 2018 CEST
Tagged: no
UserProperties: no
Suspects: no
Form: AcroForm
JavaScript: no
Pages: 233
Encrypted: no
Page size: 690.764 x 1039.76 pts
Page rot: 90
File size: 101724898 bytes
Optimized: yes
PDF version: 1.6