使用 wkhtmltopdf 将网站转换为 PDF

使用 wkhtmltopdf 将网站转换为 PDF

我正在尝试转换手册http://101.wacom.com/UserHelp/en/TOC/CTH-490.html转换为 PDF。

在 Arch Linux 中我尝试过:

wget --recursive --page-requisites --domains wacom.com  http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf

并且还替换wkhtmltopdf为:

htmldoc --webpage -f foo.pdf  101.wacom.com/UserHelp/en/TOC/CTH-490.html                               

我只得到第一页(几乎是空白的htmldoc)。

wkhtmltopdf 是社区存储库中的版本 0.12.5。
HTMLDOC 版本为 1.9.8。

答案1

这是一个动态页面,一个由 HTML 创建的空壳,通过脚本加载其内容。如果您查看 HTML 源代码并了解其工作原理,您也许能够按计划分块下载信息,但您必须将它们拼凑在一起。

您正在尝试抓取一个动态站点,Python 和一些其他库是一个很好的候选工具。

回答可能有帮助。

相关内容