如何保存从一个网站链接的所有网页

Question 1

你可以用获得命令行实用程序。如果您为其提供选项-r，它将递归下载网页。例如：

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

这将下载该网页及其链接的所有内容。您还可以使其仅递归一定数量的级别，为此，您只需提供-r一个数字。像这样：

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

Answer

你可以用获得命令行实用程序。如果您为其提供选项-r，它将递归下载网页。例如：

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

这将下载该网页及其链接的所有内容。您还可以使其仅递归一定数量的级别，为此，您只需提供-r一个数字。像这样：

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

Question 2

这个线程已经很旧了，但是其他人可能会看它。

现代版本的 wget 有许多有用的选项，用于递归链接并将其修补为本地相对链接，以便您可以浏览网站的本地副本。使用 -r 选项进行递归，使用 -k 选项修补本地链接，使用 -H 选项遍历原始域以外的域，使用 -D 选项限制您遍历的域，使用 -l 选项限制递归深度，使用 -p 选项确保遍历的叶子节点具有正确显示所需的一切。

例如，下面将下载一个页面以及它立即链接到的所有内容，使其可以在本地浏览，-p 选项确保如果链接到的页面包含图像，那么它们也会被下载：

wget -r -l 1 -p -k -H -D example1.com,example2.com http://example.com/page/in/domain

-r递归（跟随链接）

-l递归深度（0 表示无穷大）

-p获取显示 HTML 页面所需的所有图像等。

-k将 js、css 内容的链接转换为本地链接

-H递归时转到外部主机

-D以逗号分隔的接受域列表

使用类似于上述命令的命令，我能够将带有外部链接的 wiki 页面的一大块下载到我的本地磁盘上，而无需下载数兆字节的无关数据。现在，当我在浏览器中打开根页面时，我可以在不连接互联网的情况下浏览树。唯一令人烦恼的是根页面被埋在子目录中，我不得不创建一个顶级重定向页面以方便显示。可能需要反复试验才能正确完成。阅读 wget 手册页并进行实验。

Answer