使用 wget 爬取一个大型目录，其中有两个链接指向同一个内容

2024-6-12 • tag-icon

我正在尝试抓取网站上的目录并下载其中的所有内容。结构很简单（但也有多个文件夹），但有一件事让 wget 感到窒息。源代码如下所示：

<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>

两个链接都有效，但它们都是同一个东西。因此 wget 将下载同一个文件两次。我怎样才能让 wget 忽略第一个？或者，如果您有更好的适用于 Linux（或 OpenBSD）的爬虫建议，请改为建议它

我尝试过如下使用拒绝列表：

wget -r -R index.php\*\&download\* http://url

但这似乎实际上没有任何作用。它仍会下载重复的 URL

你能做类似的事情吗...只需-R index.php*？这听起来好像其他链接仍然可以正常工作？

相关内容