我正在尝试抓取网站上的目录并下载其中的所有内容。结构很简单(但也有多个文件夹),但有一件事让 wget 感到窒息。源代码如下所示:
<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>
两个链接都有效,但它们都是同一个东西。因此 wget 将下载同一个文件两次。我怎样才能让 wget 忽略第一个?或者,如果您有更好的适用于 Linux(或 OpenBSD)的爬虫建议,请改为建议它
我尝试过如下使用拒绝列表:
wget -r -R index.php\*\&download\* http://url
但这似乎实际上没有任何作用。它仍会下载重复的 URL
答案1
你能做类似的事情吗...只需-R index.php*?这听起来好像其他链接仍然可以正常工作?