Wget爬行无需下载文件

Wget爬行无需下载文件

我只是想计算有多少个 URL 与该模式匹配x--*.html。在这种情况下,下面所有匹配的文件都会被下载。

$ wget --random-wait --mirror --no-parent -A x--*.html myBaseURL &

由于我只想计数,有什么方法可以避免传输所有这些页面?

笔记:我知道有一个命令--delete-after,但它仍然传输。

有任何想法吗?

答案1

我不相信有办法做到这一点。为了解析这些文件的内容以查看是否有其他链接可遵循,wget必须下载它们。

您最好的选择可能是这样做:

$ wget --random-wait --mirror --no-parent -A x--*.html myBaseURL -O /dev/null &

计算匹配数:

wget --random-wait --mirror --no-parent -A x--*.html myBaseURL -O | wc -l

相关内容