如何查找网站的大小?

如何查找网站的大小?

假设我想下载某个 wiki 站点。它看起来只有 2000 篇文章 - 但借助 wiki 技术 - 它们会保留每篇文章的多个版本... 因此它仍然可能有 TB 级的数据!

所以我的问题是 - 如何才能找到给定网站的大小 - 而无需下载该网站?

答案1

大多数 wiki 将其数据存储在数据库中。这些不是您可以从 Web 服务器下载的简单页面,而是在您请求它们时使用对该数据库的大量查询动态创建的。

找出大小会很棘手...您需要数据库的总大小,加上网络可访问目录中的任何支持文件。

我想,如果您想下载目前的所有 2000 篇文章,您可以编写一个脚本来查询每篇文章的数据库,并将其下载到您的机器上。但要获得每篇文章的修订版,并访问可能被删除的文章,您需要了解相关 wiki 软件的 URL 方案。然后,您可以测量所有这些文件的大小……但这可能无法让您准确了解当它们全部存储在网络和数据库服务器上时的大小。

相关内容