wget 中的 URL 模式匹配

wget 中的 URL 模式匹配

我想要下载的网站页面都以特定的字符模式开头,如下所示:

www.site.com/1234_1

www.site.com/1234_2

www.site.com/1234_3

等等。

有没有办法告诉 wget 只下载以此序列开头的页面? --noparent 选项不起作用,因为同一目录中有许多我不想要的页面,在这种情况下制作 url 列表会非常繁琐。

答案1

这是来自 wget 的帮助:

--accept-regex=REGEX        regex matching accepted URLs 

因此你也许可以这样做:

wget --accept-regex="www\.site\.com\/1234" rest-of-your-command 

相关内容