使用wget仅下载第一深度的外部链接

使用wget仅下载第一深度的外部链接

我想获得此页面的副本:http://databyte.ch/services/tony/index.html显然这个页面已经是原始来源的副本:http://www.tonyvanroon.com/oldwebsite/circ/ Circuits.htm

但有一些链接失效了。现在我已经制作了索引页的副本并更正了所有链接以指向回溯存档。现在几乎所有内容都可以浏览。但现在我想用 wget 复制更正后的页面。现在的问题是:如果wget由于-H参数而跟踪外部链接,它也会下载外部页面中链接的文件。

例如:在此页面上:https://web.archive.org/web/20130318175317if_/http://www.sentex.ca/~mec1995/circ/alt1.htm

有一个链接: https://web.archive.org/web/20130401212207if_/http://www.sentex.ca/~mec1995/circ/ Circuits.htm

这些是不同的时间戳:20130318175317if_ vs 20130401212207if_

现在轮子开始旋转了。因为在第二个索引页上有许多其他时间戳的链接等等......

所以我想实现的是, wget 只下载到第一级:

databyte.ch -> 指向的所有链接https://web.archive.org/web/20130318175317if_

而不是更多...

我怎样才能做到这一点?谢谢!

答案1

您可以将深度参数与 wget 一起使用:

  -l depth
  --level=depth
      Specify recursion maximum depth level depth.
wget -r -l 1 -k -p -H --domains=web.archive.org http://databyte.ch/services/tony/index.html

其中 -r 设置递归模式,-k 转换链接,-p 下载先决条件,-H 跨越主机。指定 --domains 将仅跨越这些主机。

相关内容