是否有可能在不使用 robots.txt 或 .htaccess 的情况下阻止专用服务器上的图像蜘蛛/机器人?

是否有可能在不使用 robots.txt 或 .htaccess 的情况下阻止专用服务器上的图像蜘蛛/机器人?

我们知道,我们可以使用 robots.txt 或 .htaccess 或通过 Apache 配置文件 httpd.conf 阻止某些蜘蛛抓取网站页面。

但是,这需要编辑一些专用服务器上的大量网站,而机器人仍会“访问”并消耗资源。还有其他“安全”的方法可以从根目录(如 Windows 服务器)阻止这些 IMG 蜘蛛吗?

答案1

robots.txt 没有堵塞不管怎样,爬虫程序是否关注 robots.txt 或忽略它都取决于它。也没有一个中央网络爬虫程序列表,因为任何人都可以出于任何原因运行它们,它们可以显示为普通浏览流量,声称来自普通网络浏览器。

您可以执行基本的引荐来源检查来阻止图像热链接,您可以执行入侵防御来阻止端口扫描器和恶意请求,但如果要阻止蜘蛛而不是人类和误报,您可能需要将您的网站放在登录页面后面。

机器人仍然会“访问”并消耗资源。

最少的资源。您将花费数小时来实施、测试和调整“蜘蛛阻止”策略,而您可以将这笔投资花在能够应对该策略的硬件上。实际上,这应该是背景噪音。

如果蜘蛛正在攻击您的网站,它将如何应对实际用户?

相关内容