我们需要多少台机器才能击败谷歌

我们需要多少台机器才能击败谷歌

为了在 1 年内达到 Google 的索引,我们大约需要多少台机器?还有互联网速度和机器配置我们用 JAVA 开发爬虫

答案1

信任http://www.wisegeek.com/how-big-is-the-internet.htm谷歌似乎已经索引了 200 TB 的数据。如果这是准确的,那么使用 100 Mbps 的连接,一年内你应该能够获得 200 TB 的数据。但是你的索引中会有一些完全过时的数据……服务器完全取决于你的爬虫性能以及你存储数据的方式!(使用的数据库,……)
无论如何,我认为更大的问题将是存储。

最后,如果没有完整的信息,这里没有人能够给你正确的答案。你最好聘请这个特定领域的专家。

答案2

看看hardware section当前维基百科页。

这些服务器的综合处理能力可能达到每秒 20 到 100 千万亿次浮点运算。

答案3

根据您最近几周在 StackOverflow 上的问题列表,我强烈怀疑您不具备 Google 所拥有的技能和经验 - 更不用说 10 年的领先优势 - 而且这比原始数据重要得多。

请注意,即使微软也无法赶上,所以你需要更多的比他们。

答案4

我猜是几千吧。祝你好运。

相关内容