如何使用 wget 下载整个网站(包括其图片)

如何使用 wget 下载整个网站(包括其图片)

wget我正在尝试使用以下命令下载整个网站:

wget -r http://whatever/

wget -m http://whatever/

但它只下载带有文本的页面,没有图片。我怎样才能下载带有文本和图片的页面?我在这里遗漏了什么?

答案1

您需要使用的命令wget要长得多,如下所述。因此,您可能希望将其提交到类似 的文件中wholesite.sh,使其成为可执行文件,然后运行它。它将创建一个包含 URL 的目录和网站资产的子目录,包括图像、js、css 等。

wget \
     --recursive \
     --level 5 \
     --no-clobber \
     --page-requisites \
     --adjust-extension \
     --span-hosts \
     --convert-links \
     --restrict-file-names=windows \
     --domains yoursite.com \
     --no-parent \
         yoursite.com

解释

--recursive 这指定了您要检索站点资产的子目录数量(因为图像等资产通常保存在站点的子目录中)。搜索资产的默认最大深度是 5 个子目录。您可以使用level下面的标志来修改它。

--level 5搜索 5 个子目录中的资产。如果目标站点较大或较小,我建议分别增加或减少此值。

--no-clobber 不要覆盖现有文件。

--page-requisites 导致wget下载正确显示给定 HTML 页面所需的所有文件,其中包括图片、css、js等

--adjust-extension 保留 .html、.css 和其他资产的正确文件扩展名。

--span-hosts 还包括场外必要的资产。

--convert-links 更新站点链接,使其作为本地机器上子目录内的文件工作(用于本地查看)。

--restrict-file-names=windows 如果您在 Windows 系统上使用此命令,请修改文件名以使其也能在 Windows 中使用。

--domains yoursite.com 请勿点击此域之外的链接。

--no-parent 不要点击您传入的目录之外的链接。

yoursite.com# 下载 URL


示例改编自:https://gist.github.com/christiangenco/8531418

相关内容