我想要下载的网站页面都以特定的字符模式开头,如下所示:
www.site.com/1234_1
www.site.com/1234_2
www.site.com/1234_3
等等。
有没有办法告诉 wget 只下载以此序列开头的页面? --noparent 选项不起作用,因为同一目录中有许多我不想要的页面,在这种情况下制作 url 列表会非常繁琐。
答案1
这是来自 wget 的帮助:
--accept-regex=REGEX regex matching accepted URLs
因此你也许可以这样做:
wget --accept-regex="www\.site\.com\/1234" rest-of-your-command