Google-Bot 爱上了我的 404 页面

2024-6-2 • tag-icon

我的访问日志每天看起来都是这样的：

66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

或这个

66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

机器人调用robots.txt两次，然后尝试访问文件（zhjtrtxnsh.html，韓國語.html，...）这些文件不能存在，必须返回 404 错误。每天都是同样的过程，只是不存在的 html 文件名会发生变化。

我的 robots.txt 的内容：

User-agent: *
Disallow: /backend
Sitemap: http://mysitesname.de/sitemap.xml

sitemap.xml 可读且有效，因此机器人似乎没有理由强制出现 404 错误。
我应该如何解释这种行为？这是否表明我犯了一个错误，还是我应该忽略它？

更新
@malware 我用几个在线工具扫描了我的网站，什么也没发现。
我的服务器上没有任何标准应用程序，如 wordpress 或 phpmyadmin。
我每天都会收到 logwatch，没有未经授权的 ssh 访问或类似的东西。
我设置了 fail2ban。
我已将 ssh 访问限制为公钥，不允许 root 登录。logwatch
报告的 sudo 命令中没有我无法识别为当天执行过的操作。
我的 web 目录中没有新文件或不是我创建的或看起来有点奇怪的文件（好吧，我不能 100% 保证，但一切看起来都很好）。
我在服务器上进行了完整的 clamscan，但没有任何结果。
软件包是最新的。

我还能做什么？

答案1

简而言之：如果我没记错的话。就是检查你网站上的 404 页面。

较长的回答：人们创建自定义 404 页面，然后忘记更改页面的状态代码。最终，当 Google 机器人尝试访问无效 URL 时，您将返回自定义 404 页面，其标头状态为 200 ok。现在机器人必须做出决定。为了帮助它做出决定，它会尝试使用随机生成的 URL（该 URL 很可能不在您的网站上）访问您的服务器，并检查当请求未找到页面时网站的响应是什么。

正如我所说，我对此不是 100% 确定。

答案1

相关内容