正在运行:
pdftohtml -c document.pdf output.htm
这将返回正常输出,但背景图像质量太低,无法读取。
这是 pdftohtml 的错误吗?或者我可以在某处更改配置文件?
任何帮助都将不胜感激,欢呼:)
运行:Ubuntu 10.04 LTS
答案1
我不太确定,但看看你的问题是否是由于这个错误造成的http://web.archiveorange.com/archive/v/RybTrtkbz0vNyQrK1IlX
也就是说,即使没有错误,您所做的事情也充满了潜在的输出灾难,PDF 是一种复杂的文档格式,通常不打算转换为其他格式,它主要用于按原样显示和打印。
使用您提到的相同工具可以轻松提取文本和图片,无需使用 -c 开关(它会尝试保留原始 PDF 的外观),
我想说尝试在不使用 -c 开关的情况下进行转换,这可能会让您获得足够好的图像,但布局可能不是您想要的,但也许您可以创建一些东西来修复它。如果 PDF 很简单,您可能不必修复任何东西。
答案2
我不确定您是否可以配置它,但您可以尝试使用带有 pdf-import 扩展的 Openoffice 来进行转换。