阻止 archive.today 抓取我的网站?

阻止 archive.today 抓取我的网站?

我的网站正在被 archive.today 抓取。该网站与信誉良好的 archive.org 类似,但 archive.today 不遵守 robots.txt,会欺骗通用用户代理并试图隐藏其 IP。然后该网站会继续复制您的内容并将其编入搜索引擎索引。

答案1

您可以通过阻止以下 IP 范围来阻止爬虫:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

一旦您阻止这些,尝试使用 archive.today 索引页面将导致其网站出现无限循环。

您可以在 iptables 中执行以下操作:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

我想象 Apache 和 ngix 有办法做类似的事情。

archive.today 击败:

在此处输入图片描述

如果您没有看到这个,他们可能已经获得了一些新的 IP。

相关内容