我们的网络服务器遇到了很大的流量和服务器负载。
我发现 majestic12 一直在访问页面。
我想知道如何阻止 majestic12 索引该网站
他们是否尊重任何 robots.txt 条目以及我该如何编写这样的条目?
答案1
根据Majestic 12 自己的 robots.txt 页面,他们完全尊重 robots 排除(从顶部开始的第三个答案)。 robots.txt 文件是网站根目录中的纯文本文件,即您将其放置在:
http://www.yourdomain.com/robots.txt
并在文件中添加以下几行:
User-agent: MJ12bot
Disallow: /
因此,如果你想阻止该机器人,我认为没有问题 - 除非你受到他们提到的其中一个假机器人的攻击。
答案2
对于楼主的后续问题:
我想知道他们是否提到了所有假机器人。为什么有人自称是 majestic12?
那将是一次假旗行动。病毒会伪装成合法的机器人/进程来抓取 IP。解释如下majestic12 常见问题一路走低。