我正在尝试抓取一个网站,并希望 wget 递归地跟踪所有链接(位于同一域内),但仅在该页面的 URL 与某个模式匹配时才下载该页面。
我尝试过这样的事情:
wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'
它确实只下载带有 'https://www.abc.def/g/h/。*' 图案。但是,它根本不会尝试跟踪其他链接。
任何想法?
提前致谢!