我可以使用 Google Appliance/Mini 来抓取和索引不属于我的网站吗?

我可以使用 Google Appliance/Mini 来抓取和索引不属于我的网站吗?

也许这是一个愚蠢的问题,但是......

我正在与这家公司合作,他们说他们需要获得“许可”才能抓取其他人的网站。他们有一个 Google Search Appliance 和一些 Google Mini,并希望将它们指向其他网站以聚合内容。最终结果将类似于有针对性的搜索引擎。(所有索引网站都与特定主题相关)

他们唯一会做的事情是:

  1. 索引来自其他网站/域名的内容
  2. 在自己的网站上提供搜索索引内容的搜索功能(如 Google,显示摘要而不是完整内容)
  3. 搜索结果将提供返回原始内容的链接

他们的意图本质上并不是恶意的,而是为了人们提供一个关于其给定主题的参考单一站点/资源。

这个过程是否存在违法或者可疑的地方?

答案1

只要您的抓取行为遵守网站的 robots.txt 文件,就没问题。

在 Google 上搜索 robots.txt 将会给你提供很多信息。

简而言之,它是一个用于指定爬虫/机器人如何访问站点、允许和不允许的内容、访问率、时间等的文件。

相关内容