会员网站需要什么软件以及如何才能被 Google 编入索引

会员网站需要什么软件以及如何才能被 Google 编入索引

我注意到,在某些情况下,付费新闻文章似乎已被 Google 编入索引,因为故事摘录出现在搜索结果中。

但是,当我使用 Googlebot(机器人)身份访问这些网站时,无法获取文章信息。这似乎表明发布者以某种方式将付费文章(及相关 URL)提交给 Google,但 Google 并未对其进行抓取。显然,这样的提交并非易事,因为它必须包含文章内容和各种元数据,例如文章所在的 URL 及其到期日期。

这样的机制存在吗?如果有,像我这样的普通网站管理员可以使用它吗?

答案1

对的,这是可能的

Google 有一个页面叫做将您的内容发布到 Google,截至今天(2018 年 5 月 21 日),它是一份有关如何让 Google 索引您的内容的全面参考。上面有各种链接,您可能想尝试一下,包括:

  • 添加您的 URL
  • 应用程序抓取
  • 搜索控制台
  • 搜索引擎优化 (SEO) 入门指南

这个答案是两年零一个月前 @acejavelin 以评论的形式发布的。也许我们链接的页面不像今天这么全面,否则我不明白他/她为什么不把它作为完整答案发布。另外,我看到 OP 当时认为这个页面“太元”,但今天,这正是他/她想要的。

网站可以检测虚假的 Googlebot

网站有时会阻止使用虚假 Googlebot 用户代理字符串的网络浏览器抓取其网页内容。您可以在电子前沿基金会的 Panopticlick 网站。但简单地说,Googlebot 除了是一个用户代理之外,还具有其他的识别功能。

答案2

事实上,该公司的网络服务器已经返回了臭名昭著的 HTTP 错误 404 指向 URL 并不意味着资源不存在。这只意味着 Web 服务器已决定 对于您来说,此资源不存在

网络服务器可以通过多种方法识别您是否是付费客户,其中最主要的是识别 HTTP Cookie 存储在您的浏览器中。当未找到 cookie 时,网络服务器通常会要求您登录,如果登录成功,则将返回该 cookie。

问题是,为什么 Googlebot 可以访问,而您却不可以?

Googlebot 最终会发现几乎所有网站,但网站管理员可以使用 将您的内容发布到 Google。他还可以使用 Robots.txt 文件

此类文件的一个示例是:

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

该机器人通过在 HTTP 请求的标头中使用 用户代理 标签,例如googlebot

然而,要猜出 Googlebot 的身份并非易事。该网站可以很容易地 验证机器人的身份 通过做一个 反向 DNS 查找 在访问 IP 地址上。在这种情况下,返回的域名必须是 或googlebot.comgoogle.com这是您自己无法伪造的。

如果你完全控制你的网络服务器,例如通过 PHP,你可以复制这种机制并创建所谓的“会员网站”。这种软件称为 会员软件

如果您不是 PHP 程序员,或者不愿意投入大量时间,那么有很多开源软件可供选择,但也有很多商业产品会争夺您的业务。如果您决定选择其中一种,请非常谨慎,并在网上仔细查看评论。

有关更多信息,请参阅我通过搜索找到的这些资源(不一定是最好的,有些本质上是商业性的,但它们可以帮助您入门):

相关内容