我正在尝试下载该网站的全部内容http://julesverne.ca/使用wget
。我正在运行以下命令:
wget --wait 20 --limit-rate=20K --recursive --no-clobber --page-requisites --convert-links --domains julesverne.ca http://julesverne.ca/
问题是:当我运行上述命令时,wget
仅下载julesverne.ca/index.html
。仅此而已。
我怎样才能获得整个网站?
答案1
尝试
wget -mpEk "url"
最好使用
-m
(镜像)而不是,-r
因为它可以直观地下载资产,并且您不必指定递归深度,使用镜像通常可以确定返回正常站点的正确深度。这些命令
-p -E -k
可确保您不会下载可能链接到的整个页面(例如,链接到 Twitter 个人资料会导致您下载 Twitter 代码),同时包含站点所需的所有先决条件文件(JavaScript、css 等)。正确的站点结构也会保留(而不是有时输出一个带有嵌入脚本/样式表的大 .html 文件)。它速度很快,我从来没有限制任何东西来使它工作,并且生成的目录看起来比简单地使用
-r
“url”参数更好,并且可以更好地了解网站是如何组合在一起的,特别是如果你为了教育目的进行逆向工程。请注意,如果您下载的是包含大量从 TypeScript 编译的 JavaScript 的 Web 应用或网站,您将无法获取最初使用的 TypeScript,只能获取编译并发送到浏览器的内容。如果网站包含大量脚本,请考虑到这一点。
或者使用 httrack
httrack --ext-depth=1 "url"