我想要一份分布在大量网页上的手册,例如大文件。我不想订购纸质版,也不想点击每个链接才能获得整个文档。将本手册的副本放在我的硬盘上的最简单方法是什么?
答案1
这是一个可能的答案(如果 Darius 的建议不起作用我才会尝试wget
)....这也取决于你有多幸运!
你可以使用类似http://www.httrack.com/这会将整个网站保存到您的硬盘上。
您所谈论的 PDF 页面是可以预测的,因为它们都位于http://www.state.gov/documents/organization/目录,因此保存网站后,删除organization/
目录之外的所有内容
问题是没有保证只有你想要的页面存在于该目录中(例如,这个目录可能包含网站的所有 PDF,而不仅仅是您想要的 PDF)。根据您的需要,这可能足够,也可能不够。
答案2
正确的选择组合将在合理的时间内带来合理的结果。为了实现这一点,我们进行了几次尝试。
wget --recursive --page-requisites --convert-links --timestamping
--domains=www.state.gov --level=2 --accept htm,pdf
--include /m/a/dir/regs/fam,/documents
这不能成为通用解决方案,因为 --accept 某些文件类型的选择特定于网站。 --include 某些树的选择特定于网站。同样, --level 的选择也是特定的。
(@Darius 可能会发布答案而不是评论,在这种情况下我会考虑选择它。)