雷达下的聚合

雷达下的聚合

我正在考虑编写一个应用程序,用于汇总某个相当受欢迎的网站的信息。该应用程序将以规定的时间间隔向该网站请求信息。我知道这个问题很难回答,甚至无法给出“大致”的答案,但一个好的安全时间间隔是多少,才能让它基本“不引人注意”呢?我首先是一名程序员,其次是人,第三才是服务器管理员,所以我对 Apache 等服务器软件在处理动态内容的服务器负载方面的能力了解得非常基础。

我知道这个问题非常开放,答案取决于许多变量,但如果能分享任何相关的经验知识,我将不胜感激。

答案1

首先、其次和第三,我会查看该网站是否有 API。第四,我会查看该网站是否有使用条款政策。最后,随机数是你的好朋友。

答案2

如果以秒为单位来衡量,并且网站流量很大,那么影响应该不会太大。比秒+间隔更重要的可能是确保您正确接受压缩响应等。

但如果您真的想保持礼貌,您应该向他们寻求许可或索取您想要的数据副本。

答案3

我的建议是看看类似的服务。具有开放 API 的服务通常会发布其速率限制。例如推特

虽然访问 API 与您要做的事情有所不同,并且这当然不能保证您“保持不被发现”,但它可能会给您一个想法。

相关内容