是否可以阻止网络爬虫下载我的服务器中的文件(例如 zip 文件)?
我本想创建一个 PHP 脚本,使用 cookie 来跟踪访问者(特别是网络爬虫),以便在下载 3 个文件后登录/注册。但我发现网络爬虫可以绕过 cookie。
是否可以阻止网络爬虫?或者是否有其他选项可以在网络爬虫下载最多 3 个文件后隐藏这些文件?
我可以轻松创建一个使用 cookie 的 PHP 脚本来强制访问者登录/注册,但是网络爬虫怎么样?
顺便说一句,我正在使用 nginx 和 drupal CMS。如果这能有所帮助,请提供此信息。
答案1
因此,如果您正确设计了网站,那么客户端和某种类型的爬虫所需的安全性将没有区别。根据您所说的依靠 cookie 来跟踪这一点,恶意客户端可以轻松绕过您的“安全性”。听起来您只处理客户端表现良好的情况。这对某些网站来说没问题(见鬼,纽约时报就是这样做的)。由您决定是否需要额外的安全性(这会增加复杂性),或者您是否没有它就没问题。
爬虫不一定发送 cookie,但普通的 Web 浏览器也不发送 cookie。这里唯一可行的解决方案是通过 IP 地址跟踪下载(尽管这在 IPv6 中变得毫无用处)。