如何保存从一个网站链接的所有网页

如何保存从一个网站链接的所有网页

我想保存此网页以及它链接到的所有页面。并希望保存的网页之间具有相同的链接。

有没有其他方法可以代替打开并保存每个链接的页面?

答案1

你可以用获得命令行实用程序。如果您为其提供选项-r,它将递归下载网页。例如:

wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html

这将下载该网页及其链接的所有内容。您还可以使其仅递归一定数量的级别,为此,您只需提供-r一个数字。像这样:

wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html

答案2

这个线程已经很旧了,但是其他人可能会看它。

现代版本的 wget 有许多有用的选项,用于递归链接并将其修补为本地相对链接,以便您可以浏览网站的本地副本。使用 -r 选项进行递归,使用 -k 选项修补本地链接,使用 -H 选项遍历原始域以外的域,使用 -D 选项限制您遍历的域,使用 -l 选项限制递归深度,使用 -p 选项确保遍历的叶子节点具有正确显示所需的一切。

例如,下面将下载一个页面以及它立即链接到的所有内容,使其可以在本地浏览,-p 选项确保如果链接到的页面包含图像,那么它们也会被下载:

wget -r -l 1 -p -k -H -D example1.com,example2.com http://example.com/page/in/domain

-r递归(跟随链接)

-l递归深度(0 表示无穷大)

-p获取显示 HTML 页面所需的所有图像等。

-k将 js、css 内容的链接转换为本地链接

-H递归时转到外部主机

-D以逗号分隔的接受域列表

使用类似于上述命令的命令,我能够将带有外部链接的 wiki 页面的一大块下载到我的本地磁盘上,而无需下载数兆字节的无关数据。现在,当我在浏览器中打开根页面时,我可以在不连接互联网的情况下浏览树。唯一令人烦恼的是根页面被埋在子目录中,我不得不创建一个顶级重定向页面以方便显示。可能需要反复试验才能正确完成。阅读 wget 手册页并进行实验。

答案3

你可以使用类似以下的网站爬虫追踪,免费。

来自网站;

[httrack] 允许您将万维网站点从 Internet 下载到本地目录,递归构建所有目录,将 HTML、图像和其他文件从服务器传输到您的计算机。HTTrack 会安排原始网站的相对链接结构。只需在浏览器中打开“镜像”网站的页面,您就可以逐个链接浏览该网站,就像您在线浏览一样。

相关内容