pdftohtml 输出低分辨率背景图像。有帮助吗?

pdftohtml 输出低分辨率背景图像。有帮助吗?

正在运行:

pdftohtml -c document.pdf output.htm

这将返回正常输出,但背景图像质量太低,无法读取。

这是 pdftohtml 的错误吗?或者我可以在某处更改配置文件?

任何帮助都将不胜感激,欢呼:)

运行:Ubuntu 10.04 LTS

答案1

我不太确定,但看看你的问题是否是由于这个错误造成的http://web.archiveorange.com/archive/v/RybTrtkbz0vNyQrK1IlX

也就是说,即使没有错误,您所做的事情也充满了潜在的输出灾难,PDF 是一种复杂的文档格式,通常不打算转换为其他格式,它主要用于按原样显示和打印。

使用您提到的相同工具可以轻松提取文本和图片,无需使用 -c 开关(它会尝试保留原始 PDF 的外观),

我想说尝试在不使用 -c 开关的情况下进行转换,这可能会让您获得足够好的图像,但布局可能不是您想要的,但也许您可以创建一些东西来修复它。如果 PDF 很简单,您可能不必修复任何东西。

答案2

我不确定您是否可以配置它,但您可以尝试使用带有 pdf-import 扩展的 Openoffice 来进行转换。

相关内容