我正在尝试镜像博客网站,以便我可以在我的文件系统上拥有它的精确副本以供查看。我尝试在 Linux 上发出以下命令:
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.com/
我什至尝试使用 -D 标志列出要遵循的以逗号分隔的域列表(宁愿只遵循任何域,但不必指定所有域)。我什至尝试将 URL 的 .com 部分更改为我所在国家/地区的顶级域 (.it)(如果没有它,由于某种原因我不明白并且想知道,wget 仅检索 index.html 而不是其他页面,也许这里有人可以解释原因)。
所以,即使我做了一个
wget -r -k -x -e robots=off --wait 1 http://your.site.here.blogspot.it/
下载了几个 HTML 和 favicon.ico,但没有下载来自博客的 .png 图像。为什么会这样以及如何让 wget 正常工作。我已经阅读了 wget 手册页,但没有运气。
谢谢。
答案1
正如所jayhendren
建议的,我尝试在 -D 标志后面的列表中列出域 bp.blogspot.com。然而我忘记做的是添加 -H 标志。我不清楚为什么 wget 需要从域列表中单独添加额外的 -H 标志,然后再跟上 -D 标志,但它确实有效。以下是我最终指定的用于镜像 Blogger 站点(包括从外部域提供的图像)的命令:
wget --domains=blogspot.it,bp.blogspot.com -H --mirror -e robots=off \
--wait 0.5 --convert-links http://yoursitehere.blogspot.it/
注意:这适用于意大利。如果您希望此功能在您所在的位置运行,请将 .it 转换为 .com 或任何其他顶级域。
问候。
答案2
如果没有 wget 的错误输出,我无法判断您遇到的确切问题是什么。但通常在使用 wget 下载(或镜像网站)时,我会使用 -mirror 选项,如下所示:
wget --mirror -p --adjust-extension --wait 1 http://your.site.here.blogspot.it/