从搜索脚本访问 robots.txt 时出现问题

从搜索脚本访问 robots.txt 时出现问题

我一直在使用完美搜索脚本http://www.perlfect.com/freescripts/search/在我的网站上好几年了。由于未知的原因,它在几个月前停止了正常工作。当我运行索引脚本时,出现以下错误:

Loading http://emetnews.org/robots.txt...
Error: Couldn't get 'http://emetnews.org/robots.txt': response code 403
Not using any robots.txt.
Error: Couldn't get 'http://emetnews.org/': response code 403

Google 甚至该网站的访问者都可以轻松访问 robots.txt 文件。它的权限设置为 644。在脚本不再工作之前我没有更改任何内容。我无法与脚本开发人员联系(他们已经好几年没有更新脚本或网站了)。我的虚拟主机不支持“外部”脚本。

任何人都知道出了什么问题吗?我喜欢剧本的布局。它在使用时看起来非常专业(而且是免费的)。


运行结果curl --user-agent libwww-perl/6.08 http://emetnews.org/robots.txt

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>403 Forbidden</title>
</head><body>
<h1>Forbidden</h1>
<p>You don't have permission to access /robots.txt
on this server.</p>
<p>Additionally, a 500 Internal Server Error
error was encountered while trying to use an ErrorDocument to handle the request.</p>
</body></html>

curl http://emetnews.org/robots.txt:

User-agent: Mediapartners-Google
Disallow:

Sitemap: http://emetnews.org/sitemap.xml

# User-agent: Browsershots
# Disallow:

User-agent: NinjaBot
Allow: /

User-agent: *
Disallow: /_lee/
Disallow: /blosxom/flavours/
Disallow: /blosxom/plugins/
Disallow: /contact/
Disallow: /cgi-bin/
Disallow: /feedback/
Disallow: /img/
Disallow: /includes/
# Disallow: /javascript/
Disallow: /lastrss/
# Disallow: /media/
Disallow: /mp3s/
Disallow: /print/
Disallow: /r/
Disallow: /sendPage/
# Disallow: /style/
Disallow: /talkback/
Disallow: /trip/
# block any URL that includes a ?
Disallow: /*?

# Disallowing the robot from Alexa from listing files in the Internet Archive
User-agent: ia_archiver
Disallow: /

感谢您的帮助。我的 .htaccess 文件中确实有这个:

# Blocks access from libwww-perl user-agents and URLS which include the command "=http:"
RewriteCond %{HTTP_USER_AGENT} libwww [NC,OR]
RewriteCond %{QUERY_STRING} ^(.*)=http [NC]
RewriteRule ^(.*)$ - [F,L]

我将其注释掉,现在运行时可以获得 robots.txt 文件的文本

curl --user-agent libwww-perl/6.08 http://emetnews.org/robots.txt

然而现在,当我运行索引器时,它不再说“不能”得到robots.txt 文件,现在显示了忽略文件。 ???

相关内容