有一些方法可以确定网页的大小,但整个网站的大小又如何呢?无需下载。
编辑:我只希望页面包含在包含域名的大小统计中。
答案1
您已经定义了网站的构成以及不属于网站的链接和资源的构成。该网站本质上是一个图数据结构。对所有标记为访问过的链接进行 DFS/BFS,以确保您不会循环、基于类似的查询字符串捕获和定义重复项,并且不会跟踪您定义为“不属于网站的一部分”的链接。
毕竟,由于您不想下载该网站,因此希望它支持 HTTP HEAD 方法并生成准确的 Content-Length 标头。要求其中每一个并总结它们。
容易,对吧?
OTOH,如果这是您的网站,并且您具有 ftp 访问权限或类似权限,并且您将网站定义为网站根目录中的所有文件,那么只需获取递归目录大小即可完成。耶!