wget递归问题

wget递归问题

有没有什么方法可以wget从一个起始 URL(包括每个先决条件)递归下载并包含其他路径来完成相同的操作?

为了使这一点更清楚:该文件index.html链接http://www.domain1.com/path1/index.html到多个图像、样式表等。这就是该-p选项的用途。但是,如果我也想下载index.html链接(当然也包括其先决条件)怎么办?http://www.domain2.com/path2/site.html如果第二个网站site.html链接到其他网站,则不应包含它们。

我已经尝试通过该--accept-regex选项添加第二条路径,但这并没有产生所需的行为。

答案1

使用您的示例,您可以对 wget 设置一些不同的限制来实现您想要实现的目标。

相关选项:

-D允许您提供以逗号分隔的接受域列表 - 例如,-D domain1.com,domain2.com将确保您只从这两个域下载文件。

-l允许您指定最大递归深度 - 使用您自己的解释,例如-l 1,这意味着如果domain1的index.html导致domain2的site.html,则将下载site.html,但site.html不会链接到任何内容。虽然-l限制相当多,但您可以wget使用不同的限制运行多次来获取所需的所有文件。

相关内容