我正在尝试转换手册http://101.wacom.com/UserHelp/en/TOC/CTH-490.html转换为 PDF。
在 Arch Linux 中我尝试过:
wget --recursive --page-requisites --domains wacom.com http://101.wacom.com/UserHelp/en/TOC/CTH-490.html
wkhtmltopdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html foo.pdf
并且还替换wkhtmltopdf
为:
htmldoc --webpage -f foo.pdf 101.wacom.com/UserHelp/en/TOC/CTH-490.html
我只得到第一页(几乎是空白的htmldoc
)。
wkhtmltopdf 是社区存储库中的版本 0.12.5。
HTMLDOC 版本为 1.9.8。
答案1
这是一个动态页面,一个由 HTML 创建的空壳,通过脚本加载其内容。如果您查看 HTML 源代码并了解其工作原理,您也许能够按计划分块下载信息,但您必须将它们拼凑在一起。
您正在尝试抓取一个动态站点,Python 和一些其他库是一个很好的候选工具。
这回答可能有帮助。