Yandex.ru 蜘蛛以违反 robots.txt 而闻名。在 Apache 中,您可以在 htaccess 文件中禁用 yandex。我如何对 Tomcat 执行相同的操作?我正在使用 ubuntu 服务器,所以我考虑在 hosts.deny 中添加适当的条目,但我不确定是否
ALL: yandex.ru
就足够了,而且很有效,因为机器人通常被命名为 spider31.yandex.ru。你能举例说明如何通过 hosts.deny(或任何其他方式)阻止这些机器人吗?
答案1
您需要将其放入 hosts.deny 中:
全部:.yandex.ru
注意“.”,它表示的任何子域。