使用 wget 爬取一个大型目录,其中有两个链接指向同一个内容

使用 wget 爬取一个大型目录,其中有两个链接指向同一个内容

我正在尝试抓取网站上的目录并下载其中的所有内容。结构很简单(但也有多个文件夹),但有一件事让 wget 感到窒息。源代码如下所示:

<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>

两个链接都有效,但它们都是同一个东西。因此 wget 将下载同一个文件两次。我怎样才能让 wget 忽略第一个?或者,如果您有更好的适用于 Linux(或 OpenBSD)的爬虫建议,请改为建议它

我尝试过如下使用拒绝列表:

wget -r -R index.php\*\&download\* http://url

但这似乎实际上没有任何作用。它仍会下载重复的 URL

答案1

你能做类似的事情吗...只需-R index.php*?这听起来好像其他链接仍然可以正常工作?

相关内容