我的网站正在被 archive.today 抓取。该网站与信誉良好的 archive.org 类似,但 archive.today 不遵守 robots.txt,会欺骗通用用户代理并试图隐藏其 IP。然后该网站会继续复制您的内容并将其编入搜索引擎索引。
答案1
您可以通过阻止以下 IP 范围来阻止爬虫:
78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21
一旦您阻止这些,尝试使用 archive.today 索引页面将导致其网站出现无限循环。
您可以在 iptables 中执行以下操作:
sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP
我想象 Apache 和 ngix 有办法做类似的事情。
archive.today 击败:
如果您没有看到这个,他们可能已经获得了一些新的 IP。