哪些网站拒绝爬虫请求?

哪些网站拒绝爬虫请求?

有没有什么网站可以被爬虫拒绝?我正在使用Burp Suite 爬虫暂时抓取网站。

我想知道何时以及在何种情况下爬虫程序无法检索结果,因为我必须构建一个应该拒绝爬虫程序请求的站点。

我已经在随机网站上运行了上述爬虫程序,但找不到任何拒绝爬虫程序请求的特定网站。不知何故,Burp Suite 设法从网站获取了所有数据。

这可能吗?哪些网站拒绝这些爬虫请求?

答案1

您是否正在寻找robots.txt

只需将其放入网站根目录中名为 robots.txt 的文件中,该网站就不会被抓取

User-agent: *
Disallow: /

有很多方法可以调整行为,请访问http://www.robotstxt.org了解更多。

答案2

Nifle提及robots.txt。这是 WWW 蜘蛛识别不想被抓取的网站的一种合作机制。实际上拒绝爬虫是略有不同的事情,从广泛的角度来看,很少有 WWW 网站会这样做(因为robots.txt存在)。

它是由网站的内容 HTTP 服务器完成的,它“知道”User-Agent:与已知 WWW 蜘蛛相关的 IP 地址、标头或其他信息,并且在识别出请求页面/文件/图像的蜘蛛时采取不同的行为。

此主题有几个主要变体:

  • 广告站点假装对 WWW 蜘蛛有真实的内容,但是当真实的人使用 WWW 浏览器访问时,仅提供广告或链接农场。
  • 仅需订阅的内容网站将成本墙后面的信息呈现给 WWW 蜘蛛,以便对其进行索引,但除非他们订阅,否则不会向使用 WWW 浏览器的用户显示。
  • 不想被抓取的站点,因此会向 WWW 蜘蛛显示空白页或给出错误响应。

如上所述,至少后两种情况有更好的方法可以实现,因此在实践中,这种方式很少见。这种方式会导致 WWW 索引公司和 WWW 站点提供商之间的军备竞赛。

令人担忧的是,这不会对抗你的“Burp Site crawler”反正。它最初根本不是一个 WWW 蜘蛛,而是一个被动数据分析器,它通过代理 HTTP 服务器分析由使用 WWW 浏览器的人产生的流量。

相关内容