从 PDF 中提取图表

从 PDF 中提取图表

我遇到过这样的情况:我需要从大量 PDF 文件中提取图像并将其显示在网站上。我的 PDF 有“常规”图像以及大量图表。

我用了pdf2xml它会提取 jpeg、ppm、pbm 和 vec 格式的图像。我看到“常规”图像被提取(大部分)为 jpeg/ppm/pbm,但我没有看到那里的图表 - 所以我猜测 pdf2xml 将它们存储为 .vec 文件。

所以问题是如何获取我的图表?我使用convertimagemagick 附带的工具将 .vec 转换为 jpeg/png 等,但无济于事。

答案1

我从未尝试过 pdf2xml,但在 SourceForge 上浏览它的文件时,我发现vec2svg-2.py,这似乎是一个将 .vec 文件转换为 .svg 的 Python 脚本。你应该没有困难转换静止无功发生器为您需要的任何格式。

python vec2svg-2.py -i file.vec -o file.svg

相关内容