使用wget仅下载第一深度的外部链接

2024-6-4 • tag-icon

但有一些链接失效了。现在我已经制作了索引页的副本并更正了所有链接以指向回溯存档。现在几乎所有内容都可以浏览。但现在我想用 wget 复制更正后的页面。现在的问题是：如果wget由于-H参数而跟踪外部链接，它也会下载外部页面中链接的文件。

这些是不同的时间戳：20130318175317if_ vs 20130401212207if_

现在轮子开始旋转了。因为在第二个索引页上有许多其他时间戳的链接等等......

所以我想实现的是， wget 只下载到第一级：

而不是更多...

我怎样才能做到这一点？谢谢！

您可以将深度参数与 wget 一起使用：

  -l depth
  --level=depth
      Specify recursion maximum depth level depth.

wget -r -l 1 -k -p -H --domains=web.archive.org http://databyte.ch/services/tony/index.html

其中 -r 设置递归模式，-k 转换链接，-p 下载先决条件，-H 跨越主机。指定 --domains 将仅跨越这些主机。

相关内容