是否可以通过互联网或谷歌确定一个网站的大小（以 mb (GB) 为单位）

Question 1

维基百科提供数以 TB 计的数据转储。

为了StackExchange，根据该种子文件显示，2014 年 9 月的数据转储为 22.6GB。

除了抓取网页之外，其他网站可能还提供下载数据的方法。如果您要抓取动态网站，有时可能会陷入无限循环，这意味着您下载的数据可能永远不会结束。除非您要获取特定的信息集，或者知道该网站完全是静态的（只有实际的 .HTML 页面），否则您无法轻松确定该网站的大小。

Answer

维基百科提供数以 TB 计的数据转储。

为了StackExchange，根据该种子文件显示，2014 年 9 月的数据转储为 22.6GB。

除了抓取网页之外，其他网站可能还提供下载数据的方法。如果您要抓取动态网站，有时可能会陷入无限循环，这意味着您下载的数据可能永远不会结束。除非您要获取特定的信息集，或者知道该网站完全是静态的（只有实际的 .HTML 页面），否则您无法轻松确定该网站的大小。

Question 2

是否可以通过互联网或谷歌确定一个网站有多大

不。

假设您的意思是提前或代替将所有内容下载到您自己的计算机上并在那里进行计算。

目前尚无普遍且完善的惯例或方法让网站管理员能够提供此类信息。

您可以为某些站点解决这个问题（请参阅其他答案），但执行此操作的方式以及可能的成功因站点而异。

或谷歌

他们最有能力为所有网站提供通用机制，但存在一些复杂因素

robots.txt 排除项可阻止 Google 查看部分或全部网站
动态网站，可以从有限的资源中生成几乎无限的 HTML 内容（例如参数搜索、停放域名的一些垃圾广告网站）
站点边界不明确——有些站点提供来自多个域的内容。

除非谷歌能够找到一种方法将您所寻求的信息转化为金钱，否则提供这些信息可能并不是他们的首要任务。

Answer

是否可以通过互联网或谷歌确定一个网站有多大

不。

假设您的意思是提前或代替将所有内容下载到您自己的计算机上并在那里进行计算。

目前尚无普遍且完善的惯例或方法让网站管理员能够提供此类信息。

您可以为某些站点解决这个问题（请参阅其他答案），但执行此操作的方式以及可能的成功因站点而异。

或谷歌

他们最有能力为所有网站提供通用机制，但存在一些复杂因素

robots.txt 排除项可阻止 Google 查看部分或全部网站
动态网站，可以从有限的资源中生成几乎无限的 HTML 内容（例如参数搜索、停放域名的一些垃圾广告网站）
站点边界不明确——有些站点提供来自多个域的内容。

除非谷歌能够找到一种方法将您所寻求的信息转化为金钱，否则提供这些信息可能并不是他们的首要任务。

Question 3

Lantern 只会广播特定子集的网站 - 本质上统一协议重新发明，所以你必须检查尺寸的想法可能行不通，或者没有必要。它的单程所以你不必担心数据的大小> 它是一个播送传统的电视或广播等媒体，而不是互联网等双向媒体。所以，你问这个问题的主要原因……嗯，这不是问题。维基百科总结道外网很不错

这是一个有趣的问题，所以我会尝试一下

我能想到的唯一办法是一些网页的方法是使用 wget（使用 --spider，这样您就不必下载页面，并使用 --server-response 获取报告的文件大小）。这种方法在很大程度上受到了这个那么问题来了

这与 superuser.com 兼容

[geek@phoebe os store]$ wget -v4 --spider --server-response superuser.com
已启用蜘蛛模式。检查远程文件是否存在。
--2014-11-28 17:26:35-- http://superuser.com/
正在解析 superuser.com (superuser.com)...198.252.206.16
连接到 superuser.com (superuser.com)|198.252.206.16|:80... 已连接。
HTTP 请求已发送，等待响应...
  HTTP/1.1 200 正常
  缓存控制：公共，无缓存=“Set-Cookie”，最大年龄=60
  内容长度：71913
  内容类型：text/html；字符集=utf-8
  到期时间：2014 年 11 月 28 日星期五 09:27:35 GMT
  最后修改时间：2014 年 11 月 28 日星期五 09:26:35 GMT
  各不相同： *
  X-Frame 选项：SAMEORIGIN
  设置 Cookie：prov=85f6f157-7e84-43bf-b762-003cf7d8ff71；domain=.superuser.com；expires=Fri, 01-Jan-2055 00:00:00 GMT；path=/；HttpOnly
  日期：2014 年 11 月 28 日星期五 09:26:34 GMT
长度：71913（70K）[text/html]
远程文件存在且可能包含进一步的链接，
但递归被禁用——无法检索。

[geek@phoebe os store]$ wget -v4 --spider --server-response http://superuser.com/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895#845895
已启用蜘蛛模式。检查远程文件是否存在。
--2014-11-28 17:26:43-- http://superuser.com/questions/845893/is-it-possible-to-determine-through-the-internet-or-google-how-large-a-website/845895
正在解析 superuser.com (superuser.com)...198.252.206.16
连接到 superuser.com (superuser.com)|198.252.206.16|:80... 已连接。
HTTP 请求已发送，等待响应...
  HTTP/1.1 200 正常
  缓存控制：公共，无缓存=“Set-Cookie”，最大年龄=60
  内容长度：69163
  内容类型：text/html；字符集=utf-8
  到期时间：2014 年 11 月 28 日星期五 09:27:43 GMT
  最后修改时间：2014 年 11 月 28 日星期五 09:26:43 GMT
  各不相同： *
  X-Frame 选项：SAMEORIGIN
  设置 Cookie：prov=7d270174-a377-4758-bbff-f4c87054de67；domain=.superuser.com；expires=Fri, 01-Jan-2055 00:00:00 GMT；path=/；HttpOnly
  日期：2014 年 11 月 28 日星期五 09:26:42 GMT
长度：69163（68K）[text/html]
远程文件存在且可能包含进一步的链接，
但递归被禁用——无法检索。

但不是说

谷歌

[geek@phoebe os store]$ wget -v4 --spider --server-response google.com        
已启用蜘蛛模式。检查远程文件是否存在。
--2014-11-28 17:29:06-- http://google.com/
正在解析 google.com (google.com)...74.125.68.113, 74.125.68.138, 74.125.68.100, ...
连接到 google.com (google.com)|74.125.68.113|:80... 已连接。
HTTP 请求已发送，等待响应...
  HTTP/1.1 302 已找到
  缓存控制：私有
  内容类型：text/html；字符集=UTF-8
  地址：http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw
  内容长度：262
  日期：2014 年 11 月 28 日星期五 09:29:06 GMT
  服务器：GFE/2.0
  替代协议：80：quic，p=0.02
地址：http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw [关注]
已启用蜘蛛模式。检查远程文件是否存在。
--2014-11-28 17:29:06-- http://www.google.com.sg/?gfe_rd=cr&ei=YkB4VMT6F9iDoAO2tIH4Dw
正在解析 www.google.com.sg (www.google.com.sg)...74.125.68.94
连接到 www.google.com.sg (www.google.com.sg)|74.125.68.94|:80... 已连接。
HTTP 请求已发送，等待响应...
  HTTP/1.1 200 正常
  日期：2014 年 11 月 28 日星期五 09:29:06 GMT
  到期时间：-1
  缓存控制：私有，最大年龄=0
  内容类型：text/html；字符集=ISO-8859-1
  设置 Cookie：PREF=ID=a1dfee7d97d41db1：FF=0：TM=1417166946：LM=1417166946：S=Uzy6MmaLU-UegGZU；有效期=2016 年 11 月 27 日星期日 09:29:06 GMT；路径=/；域=.google.com.sg
  设置 Cookie：NID=67=C_dkB1z4qdwwPkNMS80Ek1km-G4y716Evvh2BCEjYpdkpIJSAfXpjpTnSF496UlahPirO0Go-VhVxQjHlsEI_Hf4AxB9IfTyrGFzduyMB4rdTI-nX-kh0hlKhKQCrFg7；有效期=2015 年 5 月 30 日星期六 09:29:06 GMT；路径=/；域=.google.com.sg；HttpOnly
  P3P：CP="这不是 P3P 政策！请参阅 http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 了解更多信息。"
  服务器： gws
  X-XSS 保护：1；模式=阻止
  X-Frame 选项：SAMEORIGIN
  替代协议：80：quic，p=0.02
  传输编码：分块
长度：未指定 [text/html]
远程文件存在且可能包含进一步的链接，
但递归被禁用——无法检索。

Answer