当我尝试在网站管理员工具中以 googlebot 的形式抓取我的网站时,它返回无法访问的 robots.txt,经过调查后我了解到 google bot 可以看到我的服务器:
tcpdump | grep google
它返回 google 可以使用 IP aa.bb.cc.xx 或 aa.bb.cc.yy 访问我的服务器。但是 access_log 或 error_log 或其他 apache 日志中没有任何内容。
cat access_log | grep google or cat error_log | grep aa.bb.cc.xx
其他机器人(bing,......)可以访问 apache,但谷歌不能。
robots.txt
我的或它的权限没有问题,因为如您所知robots.txt
,没有必要,所以我删除了它,但网站管理员工具再次返回“无法访问 robots.txt”,而不是 404 未找到!
服务器信息:
- 服务器操作系统:CentOS 6
- Web 服务器:Apache 2.x
- 防火墙:IPTables 已停止
- SELinux 已禁用
- 我没有考虑过其他有关我服务器的安全性的问题。
我该如何调查该问题?还有其他命令可以帮助我找到该问题吗?
答案1
您删除了该robots.txt
文件,当然它是“无法访问的”——Google 对其请求的响应出现 404 错误是因为该文件不存在。
如果该工具需要robots.txt
存在,那么您可能需要一个。