Google 网络爬虫无法找到我的 WordPress 帖子

Google 网络爬虫无法找到我的 WordPress 帖子

我在自己的服务器上有一个 wordpress 博客,它使用了包含中文字符的永久链接,例如http://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/

几个月前,我把所有的网址都改成了英文描述,比如http://techblog.zellux.czm.cn/2009/05/page-coloring/,并安装了一个插件来自动生成sitemap.xml并提交给Google网站管理员工具。

几个月后,我再次检查 Google 网站管理员工具,在“诊断”->“网页抓取”中,它说找不到 41 个网址,所有这些网址都像之前一样包含中文字符的 unicode,并且在链接自列他们都是不可用。至于站点地图->站点地图详细信息,它表示 115 个 URL 中只有 15 个被编入索引。

所以我的问题是如何让 Google 停止尝试抓取已弃用的 URL,而只抓取 sitemap.xml 中指定的 URL?

答案1

您可以使用 robots.txt 文件来排除指定的页面,使其不被抓取。它看起来像这样:

User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3

在任何文本编辑器中创建此文件并上传到您的根目录(或编辑现有的 robots.txt 文件(如果存在))。

网站管理员工具还有一个生成 robots.txt 文件的工具(工具 > 生成 robots.txt)

相关内容