有没有什么方法可以wget
从一个起始 URL(包括每个先决条件)递归下载并包含其他路径来完成相同的操作?
为了使这一点更清楚:该文件index.html
链接http://www.domain1.com/path1/index.html
到多个图像、样式表等。这就是该-p
选项的用途。但是,如果我也想下载index.html
链接(当然也包括其先决条件)怎么办?http://www.domain2.com/path2/site.html
如果第二个网站site.html
链接到其他网站,则不应包含它们。
我已经尝试通过该--accept-regex
选项添加第二条路径,但这并没有产生所需的行为。
答案1
使用您的示例,您可以对 wget 设置一些不同的限制来实现您想要实现的目标。
相关选项:
-D
允许您提供以逗号分隔的接受域列表 - 例如,-D domain1.com,domain2.com
将确保您只从这两个域下载文件。
-l
允许您指定最大递归深度 - 使用您自己的解释,例如-l 1
,这意味着如果domain1的index.html导致domain2的site.html,则将下载site.html,但site.html不会链接到任何内容。虽然-l
限制相当多,但您可以wget
使用不同的限制运行多次来获取所需的所有文件。