我想保存此网页以及它链接到的所有页面。并希望保存的网页之间具有相同的链接。
有没有其他方法可以代替打开并保存每个链接的页面?
答案1
你可以用获得命令行实用程序。如果您为其提供选项-r
,它将递归下载网页。例如:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
这将下载该网页及其链接的所有内容。您还可以使其仅递归一定数量的级别,为此,您只需提供-r
一个数字。像这样:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
答案2
这个线程已经很旧了,但是其他人可能会看它。
现代版本的 wget 有许多有用的选项,用于递归链接并将其修补为本地相对链接,以便您可以浏览网站的本地副本。使用 -r 选项进行递归,使用 -k 选项修补本地链接,使用 -H 选项遍历原始域以外的域,使用 -D 选项限制您遍历的域,使用 -l 选项限制递归深度,使用 -p 选项确保遍历的叶子节点具有正确显示所需的一切。
例如,下面将下载一个页面以及它立即链接到的所有内容,使其可以在本地浏览,-p 选项确保如果链接到的页面包含图像,那么它们也会被下载:
wget -r -l 1 -p -k -H -D example1.com,example2.com http://example.com/page/in/domain
-r递归(跟随链接)
-l递归深度(0 表示无穷大)
-p获取显示 HTML 页面所需的所有图像等。
-k将 js、css 内容的链接转换为本地链接
-H递归时转到外部主机
-D以逗号分隔的接受域列表
使用类似于上述命令的命令,我能够将带有外部链接的 wiki 页面的一大块下载到我的本地磁盘上,而无需下载数兆字节的无关数据。现在,当我在浏览器中打开根页面时,我可以在不连接互联网的情况下浏览树。唯一令人烦恼的是根页面被埋在子目录中,我不得不创建一个顶级重定向页面以方便显示。可能需要反复试验才能正确完成。阅读 wget 手册页并进行实验。
答案3
你可以使用类似以下的网站爬虫追踪,免费。
来自网站;
[httrack] 允许您将万维网站点从 Internet 下载到本地目录,递归构建所有目录,将 HTML、图像和其他文件从服务器传输到您的计算机。HTTrack 会安排原始网站的相对链接结构。只需在浏览器中打开“镜像”网站的页面,您就可以逐个链接浏览该网站,就像您在线浏览一样。