自动保存分散在多个网页上的大文档

Question 1

这是一个可能的答案（如果 Darius 的建议不起作用我才会尝试wget）....这也取决于你有多幸运！

你可以使用类似http://www.httrack.com/这会将整个网站保存到您的硬盘上。

您所谈论的 PDF 页面是可以预测的，因为它们都位于http://www.state.gov/documents/organization/目录，因此保存网站后，删除organization/目录之外的所有内容

问题是没有保证只有你想要的页面存在于该目录中（例如，这个目录可能包含网站的所有 PDF，而不仅仅是您想要的 PDF）。根据您的需要，这可能足够，也可能不够。

Answer

这是一个可能的答案（如果 Darius 的建议不起作用我才会尝试wget）....这也取决于你有多幸运！

你可以使用类似http://www.httrack.com/这会将整个网站保存到您的硬盘上。

您所谈论的 PDF 页面是可以预测的，因为它们都位于http://www.state.gov/documents/organization/目录，因此保存网站后，删除organization/目录之外的所有内容

问题是没有保证只有你想要的页面存在于该目录中（例如，这个目录可能包含网站的所有 PDF，而不仅仅是您想要的 PDF）。根据您的需要，这可能足够，也可能不够。

Question 2

正确的选择组合将在合理的时间内带来合理的结果。为了实现这一点，我们进行了几次尝试。

wget --recursive --page-requisites --convert-links --timestamping 
--domains=www.state.gov --level=2 --accept htm,pdf 
--include /m/a/dir/regs/fam,/documents

这不能成为通用解决方案，因为 --accept 某些文件类型的选择特定于网站。 --include 某些树的选择特定于网站。同样， --level 的选择也是特定的。

（@Darius 可能会发布答案而不是评论，在这种情况下我会考虑选择它。）

Answer

正确的选择组合将在合理的时间内带来合理的结果。为了实现这一点，我们进行了几次尝试。

wget --recursive --page-requisites --convert-links --timestamping 
--domains=www.state.gov --level=2 --accept htm,pdf 
--include /m/a/dir/regs/fam,/documents

这不能成为通用解决方案，因为 --accept 某些文件类型的选择特定于网站。 --include 某些树的选择特定于网站。同样， --level 的选择也是特定的。

（@Darius 可能会发布答案而不是评论，在这种情况下我会考虑选择它。）

自动保存分散在多个网页上的大文档

答案1

答案2

相关内容