也许这是一个愚蠢的问题,但是......
我正在与这家公司合作,他们说他们需要获得“许可”才能抓取其他人的网站。他们有一个 Google Search Appliance 和一些 Google Mini,并希望将它们指向其他网站以聚合内容。最终结果将类似于有针对性的搜索引擎。(所有索引网站都与特定主题相关)
他们唯一会做的事情是:
- 索引来自其他网站/域名的内容
- 在自己的网站上提供搜索索引内容的搜索功能(如 Google,显示摘要而不是完整内容)
- 搜索结果将提供返回原始内容的链接
他们的意图本质上并不是恶意的,而是为了人们提供一个关于其给定主题的参考单一站点/资源。
这个过程是否存在违法或者可疑的地方?
答案1
只要您的抓取行为遵守网站的 robots.txt 文件,就没问题。
在 Google 上搜索 robots.txt 将会给你提供很多信息。
简而言之,它是一个用于指定爬虫/机器人如何访问站点、允许和不允许的内容、访问率、时间等的文件。