我的访问日志每天看起来都是这样的:
66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
或这个
66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
机器人调用robots.txt两次,然后尝试访问文件(zhjtrtxnsh.html,韓國語.html,...)这些文件不能存在,必须返回 404 错误。每天都是同样的过程,只是不存在的 html 文件名会发生变化。
我的 robots.txt 的内容:
User-agent: *
Disallow: /backend
Sitemap: http://mysitesname.de/sitemap.xml
sitemap.xml 可读且有效,因此机器人似乎没有理由强制出现 404 错误。
我应该如何解释这种行为?这是否表明我犯了一个错误,还是我应该忽略它?
更新
@malware 我用几个在线工具扫描了我的网站,什么也没发现。
我的服务器上没有任何标准应用程序,如 wordpress 或 phpmyadmin。
我每天都会收到 logwatch,没有未经授权的 ssh 访问或类似的东西。
我设置了 fail2ban。
我已将 ssh 访问限制为公钥,不允许 root 登录。logwatch
报告的 sudo 命令中没有我无法识别为当天执行过的操作。
我的 web 目录中没有新文件或不是我创建的或看起来有点奇怪的文件(好吧,我不能 100% 保证,但一切看起来都很好)。
我在服务器上进行了完整的 clamscan,但没有任何结果。
软件包是最新的。
我还能做什么?
答案1
简而言之:如果我没记错的话。就是检查你网站上的 404 页面。
较长的回答:人们创建自定义 404 页面,然后忘记更改页面的状态代码。最终,当 Google 机器人尝试访问无效 URL 时,您将返回自定义 404 页面,其标头状态为 200 ok。现在机器人必须做出决定。为了帮助它做出决定,它会尝试使用随机生成的 URL(该 URL 很可能不在您的网站上)访问您的服务器,并检查当请求未找到页面时网站的响应是什么。
正如我所说,我对此不是 100% 确定。