如何向公众隐藏 elasticbeanstalk.com 地址(搜索引擎爬虫)

如何向公众隐藏 elasticbeanstalk.com 地址(搜索引擎爬虫)

我已经从 godaddy 购买了一个域名(此处提及为 xyz.com)。我使用 elasticbeanstalk 在 aws 上托管了我的网站,并生成了一个 cname(此处提及为 abc.elasticbeanstalk.com)。

现在我在 godaddy 中完成了 2 项配置:1. 将 xyz.com 转发到 www.xyz.com 2. 将 cname www 映射到 abc.elasticbeanstalk.com

xyz.com 和 www.xyz.com 在浏览器中正确打开,一切似乎正常。

问题是搜索引擎在与 xyz.com 相关的关键字的搜索结果中显示 abc.elasticbeanstalk.com。

我想让 abc.elasticbeanstalk.com 不被所有这些搜索引擎抓取工具发现。有人遇到过这个问题吗?

答案1

您可以设置规范网址对于网站:

<link rel="canonical" href="https://example.com/current/request/uri" />

另一个可能的解决方案是设置自定义 Apache 配置以重定向访问 EB 域的访问者。这需要自定义 AMI为您的 EB 安装。

答案2

正确阻止搜索引擎索引您的网站的唯一方法是添加 noindex 元。

<meta name="robots" content="noindex">

要仅阻止 Google 网络爬虫索引页面,请执行以下操作:

<meta name="googlebot" content="noindex">

将此元标记添加到您不想被 Google 编入索引的任何页面。

阅读更多:https://support.google.com/webmasters/answer/93710?hl=en

答案3

是的,上面的 robots 文件示例将阻止大多数搜索引擎抓取您的网站,这可能导致您的网站无法被索引。但这并不一定意味着它将被完全取消索引,仍有很小的机会被索引。确保 Google 不会索引您的网站的唯一方法是添加 nofollow 元标记。

Google 支持文档

在此处输入图片描述

<meta name="robots" content="noindex">

答案4

http://abc.elasticbeanstalk.com/robots.txt创建一个包含以下内容的文件:

User-agent: *
Disallow: /

这会告诉所有搜索引擎爬虫您不希望他们访问该网站。多年来,这一直是解决此问题的标准方法。

您可以在以下网址阅读更多相关内容http://www.robotstxt.org

相关内容