使用 Wget 抓取网站并按 URL 模式过滤

2024-5-29 • tag-icon

我正在尝试抓取一个网站，并希望 wget 递归地跟踪所有链接（位于同一域内），但仅在该页面的 URL 与某个模式匹配时才下载该页面。

我尝试过这样的事情：

wget https://www.abc.def --no-clobber -r -e robots=off -U mozilla --domains abc.def --html-extension --accept-regex 'https://www.abc.def/g/h/.*'

它确实只下载带有 'https://www.abc.def/g/h/。*' 图案。但是，它根本不会尝试跟踪其他链接。

任何想法？

提前致谢！

相关内容