wget 没有停止

Question

您的for循环很好（除了可以使用breakwhen更有效地编写它$j -ge 10，这样它就不会继续迭代剩余的元素。

问题是您期望wget ... -r每次迭代仅获取一个文件。事情不是这样的；该循环仅计算的调用次数wget ... -r，并且每次调用都可以下载无限数量的文件。

这是不相关的，只是如果许多文件实际上被爬虫阻止，则-e robots=off使用可能会导致更快地停止递归。robots.txt

你真的不应该使用-e robots=off.根据您的管辖范围，这样做可能会产生法律后果（我同意这很糟糕，抓取应该是合法的，但这就是目前的情况）。

Answer 1

您的for循环很好（除了可以使用breakwhen更有效地编写它$j -ge 10，这样它就不会继续迭代剩余的元素。

问题是您期望wget ... -r每次迭代仅获取一个文件。事情不是这样的；该循环仅计算的调用次数wget ... -r，并且每次调用都可以下载无限数量的文件。

这是不相关的，只是如果许多文件实际上被爬虫阻止，则-e robots=off使用可能会导致更快地停止递归。robots.txt

你真的不应该使用-e robots=off.根据您的管辖范围，这样做可能会产生法律后果（我同意这很糟糕，抓取应该是合法的，但这就是目前的情况）。

相关内容