使用 Wget 抓取网站并按 URL 模式过滤

使用 Wget 抓取网站并按 URL 模式过滤

我正在尝试抓取一个网站,并希望 wget 递归地跟踪所有链接(位于同一域内),但仅在该页面的 URL 与某个模式匹配时才下载该页面。

我尝试过这样的事情:

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

它确实只下载带有 'https://www.abc.def/g/h/。*' 图案。但是,它根本不会尝试跟踪其他链接。

任何想法?

提前致谢!

相关内容