wget
我正在尝试使用以下命令下载整个网站:
wget -r http://whatever/
wget -m http://whatever/
但它只下载带有文本的页面,没有图片。我怎样才能下载带有文本和图片的页面?我在这里遗漏了什么?
答案1
您需要使用的命令wget
要长得多,如下所述。因此,您可能希望将其提交到类似 的文件中wholesite.sh
,使其成为可执行文件,然后运行它。它将创建一个包含 URL 的目录和网站资产的子目录,包括图像、js、css 等。
wget \
--recursive \
--level 5 \
--no-clobber \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--restrict-file-names=windows \
--domains yoursite.com \
--no-parent \
yoursite.com
解释
--recursive
这指定了您要检索站点资产的子目录数量(因为图像等资产通常保存在站点的子目录中)。搜索资产的默认最大深度是 5 个子目录。您可以使用level
下面的标志来修改它。
--level 5
搜索 5 个子目录中的资产。如果目标站点较大或较小,我建议分别增加或减少此值。
--no-clobber
不要覆盖现有文件。
--page-requisites
导致wget
下载正确显示给定 HTML 页面所需的所有文件,其中包括图片、css、js等
--adjust-extension
保留 .html、.css 和其他资产的正确文件扩展名。
--span-hosts
还包括场外必要的资产。
--convert-links
更新站点链接,使其作为本地机器上子目录内的文件工作(用于本地查看)。
--restrict-file-names=windows
如果您在 Windows 系统上使用此命令,请修改文件名以使其也能在 Windows 中使用。
--domains yoursite.com
请勿点击此域之外的链接。
--no-parent
不要点击您传入的目录之外的链接。
yoursite.com
# 下载 URL