我们知道,我们可以使用 robots.txt 或 .htaccess 或通过 Apache 配置文件 httpd.conf 阻止某些蜘蛛抓取网站页面。
但是,这需要编辑一些专用服务器上的大量网站,而机器人仍会“访问”并消耗资源。还有其他“安全”的方法可以从根目录(如 Windows 服务器)阻止这些 IMG 蜘蛛吗?
答案1
robots.txt 没有堵塞不管怎样,爬虫程序是否关注 robots.txt 或忽略它都取决于它。也没有一个中央网络爬虫程序列表,因为任何人都可以出于任何原因运行它们,它们可以显示为普通浏览流量,声称来自普通网络浏览器。
您可以执行基本的引荐来源检查来阻止图像热链接,您可以执行入侵防御来阻止端口扫描器和恶意请求,但如果要阻止蜘蛛而不是人类和误报,您可能需要将您的网站放在登录页面后面。
机器人仍然会“访问”并消耗资源。
最少的资源。您将花费数小时来实施、测试和调整“蜘蛛阻止”策略,而您可以将这笔投资花在能够应对该策略的硬件上。实际上,这应该是背景噪音。
如果蜘蛛正在攻击您的网站,它将如何应对实际用户?