我知道如何使用 imagemagickconvert
来呈现 PDF 并从 PDF 页面生成新图像,包括以所需分辨率呈现的位图和矢量图像。
但是,这种方法的问题在于位图图像被重新采样到新的分辨率。我希望能够提取位图图像,就像它们存储在 PDF 中一样。
我希望这能提高扫描 PDF 的对比度,因为 PDF 只不过是位图图像的存档。例如http://www.datamath.net/Manuals/TI-66_Manual_US.pdf
我希望第一步就是从 PDF 中提取尽可能原始的位图。
注意:我将其限制在 imagemagick 中,以便解决方案可移植。但是,如果您知道可以使用与 imagemagick 一样常见的 unix 工具完成相同的操作,请分享!
答案1
(如果有办法使用 imagemagick,请随意添加答案)
找到[0]一个使用 poppler 的解决方案,我认为它和 imagemagick 一样流行
pdfimages -all -p TI-66_Manual_US.pdf ./
以上代码将从 pdf 中提取所有图像格式到本地目录并添加页码。由于某种原因,它会在文件名前面添加“。”,因此只需运行...
for f in .*jpg; do mv $f a$f; done
...在点前面添加一个“a”,以便更容易使用它们。
[0] 来源:https://www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/