我最近问过ServerFault 上的 301 重定向我没有得到问题的适当解决方案,但现在我有了一个新的想法:使用 robots.txt 禁止某些 URL从我的网站进行“抓取”。
我的问题很简单:从专有定制 CMS 迁移到 WordPress 后,我们谷歌在新网站上找不到很多 URL,然后进入 404 页面。这对我们的 Pagerank 和搜索来说都是坏消息,因为 Google 仍然认为这些页面是活跃的。
我们有一个无效 URL 列表,我尝试重定向到有效的 URL。问题是,有2万个,而且没有机会用正则表达式来解决问题。我们必须一个接一个地进行 301 重定向,这是一项艰巨的任务。
但我感到疑惑的是:我们可以在 robots.txt 上列出所有不良 URL,并使用“Disallow:”前缀吗?,这样 Google 就不会为它们编制索引?这是个坏主意吗?
答案1
如果 Google 认为您的 404 页面有效,则您需要在该页面上返回 404 响应代码。修复该问题,其余问题就解决了。
答案2
简单来说,这确实不是一个好主意。通过阻止 Google 查看页面,它无法确定页面中的内容,并且在某些情况下会认为这些页面可疑,因为您隐藏了不必要的内容。
您应该做的是将任何相关页面重定向到新页面。
例子
“domain-old.com/a” 和 “domain-old.com/b” 可能会重定向到 “domain-new.com/ab”
这是因为 /a + /b 的内容在 /ab 上 - 具有相关性并且重定向有意义。
如果有不相关的内容重定向,这将被视为不好
“domain-old.com/a”、“domain-old.com/b”和“domain-old.com/c”重定向至“domain-new.com/ab”
在这种情况下,/c 没有意义,因为 /ab 与页面 /c 上的内容无关
/c 将返回 404
值得注意的是,如果您的网页出现 404 错误,您将失去该流量。