在尊重 robot.txt 的同时，我需要多少硬盘空间来缓存网页？

Question 1

互联网档案确实会像您提到的那样对网络进行索引，但据我所知，它只保存网站，而不是文档。它们确实会保留旧版本的网站索引，因此它们对空间的需求可能要大得多。在常见问题解答中，他们谈到了这项任务需要 2 PB 的空间（http://www.archive.org/about/faqs.php#9) 以及大约数百台 Linux 服务器，每台服务器大约有 1TB 的数据。这些数字应该能给你一个初步印象。

Answer

互联网档案确实会像您提到的那样对网络进行索引，但据我所知，它只保存网站，而不是文档。它们确实会保留旧版本的网站索引，因此它们对空间的需求可能要大得多。在常见问题解答中，他们谈到了这项任务需要 2 PB 的空间（http://www.archive.org/about/faqs.php#9) 以及大约数百台 Linux 服务器，每台服务器大约有 1TB 的数据。这些数字应该能给你一个初步印象。

Question 2

2008 年，谷歌索引了 1,000,000,000,000 个页面，如果一个网页平均为 1Ko，那么这就是 1000To。
平均每页 1ko 只是一个非常低的估计。PDF 的大小非常大……

祝你好运

Answer

2008 年，谷歌索引了 1,000,000,000,000 个页面，如果一个网页平均为 1Ko，那么这就是 1000To。
平均每页 1ko 只是一个非常低的估计。PDF 的大小非常大……

祝你好运

Question 3

我怀疑单单一个索引就平均每页运行一千字节，包括描述等等。那里有很多页面……

Answer

我怀疑单单一个索引就平均每页运行一千字节，包括描述等等。那里有很多页面……

在尊重 robot.txt 的同时，我需要多少硬盘空间来缓存网页？

答案1

答案2

答案3

相关内容