下载整个网站 wget

下载整个网站 wget

我正在尝试下载该网站的全部内容http://julesverne.ca/使用wget。我正在运行以下命令:

wget --wait 20 --limit-rate=20K --recursive --no-clobber --page-requisites --convert-links --domains julesverne.ca http://julesverne.ca/

问题是:当我运行上述命令时,wget仅下载julesverne.ca/index.html。仅此而已。

我怎样才能获得整个网站?

答案1

尝试

wget -mpEk "url"

最好使用-m(镜像)而不是,-r因为它可以直观地下载资产,并且您不必指定递归深度,使用镜像通常可以确定返回正常站点的正确深度。

这些命令-p -E -k可确保您不会下载可能链接到的整个页面(例如,链接到 Twitter 个人资料会导致您下载 Twitter 代码),同时包含站点所需的所有先决条件文件(JavaScript、css 等)。正确的站点结构也会保留(而不是有时输出一个带有嵌入脚本/样式表的大 .html 文件)。

它速度很快,我从来没有限制任何东西来使它工作,并且生成的目录看起来比简单地使用-r“url”参数更好,并且可以更好地了解网站是如何组合在一起的,特别是如果你为了教育目的进行逆向工程。

请注意,如果您下载的是包含大量从 TypeScript 编译的 JavaScript 的 Web 应用或网站,您将无法获取最初使用的 TypeScript,只能获取编译并发送到浏览器的内容。如果网站包含大量脚本,请考虑到这一点。

或者使用 httrack

httrack --ext-depth=1 "url"

相关内容