比如,如果我要去某个偏远的地方,需要完整的 Wikipedia 或完整的 Stack Overflow,有没有办法查看特定的网络域名有多少 GB 大小?
此链接是指与卫星连接并向家庭热点提供有限数据的设备。我希望能够托管整个网站,以帮助减少此类设备的数据使用量。
答案1
维基百科提供数以 TB 计的数据转储。
为了StackExchange,根据该种子文件显示,2014 年 9 月的数据转储为 22.6GB。
除了抓取网页之外,其他网站可能还提供下载数据的方法。如果您要抓取动态网站,有时可能会陷入无限循环,这意味着您下载的数据可能永远不会结束。除非您要获取特定的信息集,或者知道该网站完全是静态的(只有实际的 .HTML 页面),否则您无法轻松确定该网站的大小。
答案2
是否可以通过互联网或谷歌确定一个网站有多大
不。
假设您的意思是提前或代替将所有内容下载到您自己的计算机上并在那里进行计算。
目前尚无普遍且完善的惯例或方法让网站管理员能够提供此类信息。
您可以为某些站点解决这个问题(请参阅其他答案),但执行此操作的方式以及可能的成功因站点而异。
或谷歌
他们最有能力为所有网站提供通用机制,但存在一些复杂因素
- robots.txt 排除项可阻止 Google 查看部分或全部网站
- 动态网站,可以从有限的资源中生成几乎无限的 HTML 内容(例如参数搜索、停放域名的一些垃圾广告网站)
- 站点边界不明确——有些站点提供来自多个域的内容。
除非谷歌能够找到一种方法将您所寻求的信息转化为金钱,否则提供这些信息可能并不是他们的首要任务。
答案3
Lantern 只会广播特定子集的网站 - 本质上统一协议重新发明,所以你必须检查尺寸的想法可能行不通,或者没有必要。它的单程所以你不必担心数据的大小> 它是一个播送传统的电视或广播等媒体,而不是互联网等双向媒体。所以,你问这个问题的主要原因……嗯,这不是问题。维基百科总结道外网很不错
这是一个有趣的问题,所以我会尝试一下
我能想到的唯一办法是一些网页的方法是使用 wget(使用 --spider,这样您就不必下载页面,并使用 --server-response 获取报告的文件大小)。这种方法在很大程度上受到了这个那么问题来了
这与 superuser.com 兼容
[geek@phoebe os store]$ wget -v4 --spider --server-response superuser.com 已启用蜘蛛模式。检查远程文件是否存在。 --2014-11-28 17:26:35-- http://superuser.com/ 正在解析 superuser.com (superuser.com)...198.252.206.16 连接到 superuser.com (superuser.com)|198.252.206.16|:80... 已连接。 HTTP 请求已发送,等待响应... HTTP/1.1 200 正常 缓存控制:公共,无缓存=“Set-Cookie”,最大年龄=60 内容长度:71913 内容类型:text/html;字符集=utf-8 到期时间:2014 年 11 月 28 日星期五 09:27:35 GMT 最后修改时间:2014 年 11 月 28 日星期五 09:26:35 GMT 各不相同: * X-Frame 选项:SAMEORIGIN 设置 Cookie:prov=85f6f157-7e84-43bf-b762-003cf7d8ff71;domain=.superuser.com;expires=Fri, 01-Jan-2055 00:00:00 GMT;path=/;HttpOnly 日期:2014 年 11 月 28 日星期五 09:26:34 GMT 长度:71913(70K)[text/html] 远程文件存在且可能包含进一步的链接, 但递归被禁用——无法检索。 [geek@phoebe os store]$ wget -v4 --spider --server-response http://superuser.com/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895#845895 已启用蜘蛛模式。检查远程文件是否存在。 --2014-11-28 17:26:43-- http://superuser.com/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895 正在解析 superuser.com (superuser.com)...198.252.206.16 连接到 superuser.com (superuser.com)|198.252.206.16|:80... 已连接。 HTTP 请求已发送,等待响应... HTTP/1.1 200 正常 缓存控制:公共,无缓存=“Set-Cookie”,最大年龄=60 内容长度:69163 内容类型:text/html;字符集=utf-8 到期时间:2014 年 11 月 28 日星期五 09:27:43 GMT 最后修改时间:2014 年 11 月 28 日星期五 09:26:43 GMT 各不相同: * X-Frame 选项:SAMEORIGIN 设置 Cookie:prov=7d270174-a377-4758-bbff-f4c87054de67;domain=.superuser.com;expires=Fri, 01-Jan-2055 00:00:00 GMT;path=/;HttpOnly 日期:2014 年 11 月 28 日星期五 09:26:42 GMT 长度:69163(68K)[text/html] 远程文件存在且可能包含进一步的链接, 但递归被禁用——无法检索。
但不是说
谷歌
[geek@phoebe os store]$ wget -v4 --spider --server-response google.com 已启用蜘蛛模式。检查远程文件是否存在。 --2014-11-28 17:29:06-- http://google.com/ 正在解析 google.com (google.com)...74.125.68.113, 74.125.68.138, 74.125.68.100, ... 连接到 google.com (google.com)|74.125.68.113|:80... 已连接。 HTTP 请求已发送,等待响应... HTTP/1.1 302 已找到 缓存控制:私有 内容类型:text/html;字符集=UTF-8 地址:http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw 内容长度:262 日期:2014 年 11 月 28 日星期五 09:29:06 GMT 服务器:GFE/2.0 替代协议:80:quic,p=0.02 地址:http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw [关注] 已启用蜘蛛模式。检查远程文件是否存在。 --2014-11-28 17:29:06-- http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw 正在解析 www.google.com.sg (www.google.com.sg)...74.125.68.94 连接到 www.google.com.sg (www.google.com.sg)|74.125.68.94|:80... 已连接。 HTTP 请求已发送,等待响应... HTTP/1.1 200 正常 日期:2014 年 11 月 28 日星期五 09:29:06 GMT 到期时间:-1 缓存控制:私有,最大年龄=0 内容类型:text/html;字符集=ISO-8859-1 设置 Cookie:PREF=ID=a1dfee7d97d41db1:FF=0:TM=1417166946:LM=1417166946:S=Uzy6MmaLU-UegGZU;有效期=2016 年 11 月 27 日星期日 09:29:06 GMT;路径=/;域=.google.com.sg 设置 Cookie:NID=67=C_dkB1z4qdwwPkNMS80Ek1km-G4y716Evvh2BCEjYpdkpIJSAfXpjpTnSF496UlahPirO0Go-VhVxQjHlsEI_Hf4AxB9IfTyrGFzduyMB4rdTI-nX-kh0hlKhKQCrFg7;有效期=2015 年 5 月 30 日星期六 09:29:06 GMT;路径=/;域=.google.com.sg;HttpOnly P3P:CP="这不是 P3P 政策!请参阅 http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 了解更多信息。" 服务器: gws X-XSS 保护:1;模式=阻止 X-Frame 选项:SAMEORIGIN 替代协议:80:quic,p=0.02 传输编码:分块 长度:未指定 [text/html] 远程文件存在且可能包含进一步的链接, 但递归被禁用——无法检索。