在尊重 robot.txt 的同时,我需要多少硬盘空间来缓存网页?

在尊重 robot.txt 的同时,我需要多少硬盘空间来缓存网页?

我想尝试创建一个网络爬虫。我将从索引几个中型网站开始,比如 Stack Overflow 或 Smashing Magazine。如果成功,我想开始爬取整个网络。我会尊重 robot.txts。我将所有 html、pdf、word、excel、powerpoint、keynote 等文档(不是 exe、dmg 等,只是文档)保存在 MySQL DB 中。除此之外,我还将有第二个表,其中包含所有结果和描述,以及一个包含单词和在哪个页面上找到这些单词的表(又称索引)。

您认为我需要多少硬盘空间来保存所有页面?最低 1 TB 还是大约 10 TB、20 TB?也许 30 TB?1000 TB?

谢谢

答案1

互联网档案确实会像您提到的那样对网络进行索引,但据我所知,它只保存网站,而不是文档。它们确实会保留旧版本的网站索引,因此它们对空间的需求可能要大得多。在常见问题解答中,他们谈到了这项任务需要 2 PB 的空间(http://www.archive.org/about/faqs.php#9) 以及大约数百台 Linux 服务器,每台服务器大约有 1TB 的数据。这些数字应该能给你一个初步印象。

答案2

2008 年,谷歌索引了 1,000,000,000,000 个页面,如果一个网页平均为 1Ko,那么这就是 1000To。
平均每页 1ko 只是一个非常低的估计。PDF 的大小非常大……

祝你好运

答案3

我怀疑单单一个索引就平均每页运行一千字节,包括描述等等。那里有很多页面……

相关内容